任何忧伤都抵不过世界的美丽
码龄7年
关注
提问 私信
  • 博客:13,466
    13,466
    总访问量
  • 10
    原创
  • 1,176,147
    排名
  • 252
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2018-05-10
博客简介:

weixin_42177380的博客

查看详细资料
个人成就
  • 获得6次点赞
  • 内容获得0次评论
  • 获得19次收藏
创作历程
  • 25篇
    2019年
成就勋章
TA的专栏
  • 发送到
  • flink
    1篇
  • spark
    8篇
  • hive
    10篇
  • 数据仓库
    1篇
  • Hbase
    3篇
  • 技术文章
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

HBase自定义hbase协处理器endpoint和遇到的问题

hbase rpc采用protobuf作为数据交换格式,自定义协处理器需要先创建一个protobuf作为rpc的client端和server端的数据请求和响应载体,在windows环境下需下载protobuf工具,如:protoc-2.5.0-win32.zip地址:http://download.csdn.net/detail/javajxz008/9616971解压至文件夹protoc-...
转载
发布博客 2019.07.01 ·
542 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Bulk Load-HBase数据导入最佳实践

一、概述HBase本身提供了很多种数据导入的方式,通常有两种常用方式:1、使用HBase提供的TableOutputFormat,原理是通过一个Mapreduce作业将数据导入HBase2、另一种方式就是使用HBase原生Client API这两种方式由于需要频繁的与数据所存储的RegionServer通信,一次性入库大量数据时,特别占用资源,所以都不是最有效的。了解过HBase底层原理...
原创
发布博客 2019.07.01 ·
312 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

bitmap类型数据导入hbase

create 'hfiletableBitmap','fm1','fm2'准备数据:vim data_bitmap.txtkey1 fm1:col1 100key1 fm1:col2 200key1 fm2:col1 300key4 fm1:col1 400hadoop fs -put data_b...
原创
发布博客 2019.07.01 ·
1277 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

spark sql中的udf和udaf实现

 今天没什么事,突然想起之前写过的sqark中SQL中的UDAF方法,这个还是挺有意思的,难度比蜂房中UDAF高,其中直接体现了火花的分而治之的细想,所以打算今天的博客在加一个火花SQL的UDF和UDAF编写。直接进入正题。1.udf函数的编写.sqlContext.udf.register(“CTOF”,(degreesCelci...
转载
发布博客 2019.07.01 ·
304 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

linux安装protobuf( java开发)

说明:protobuf已经全面迁移到github,地址:https://github.com/google/protobuf直接下载2.6.1版本:https://github.com/google/protobuf/archive/v2.6.1.zip$wget https://github.com/google/protobuf/archive/v2.6.1.zip$unzip pro...
原创
发布博客 2019.06.27 ·
822 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive面试系列

导入数据mianshi.txtA,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5A,2015-03,16A,2015-03,22B,2015-03,23B,2015-03,10B,2015-...
原创
发布博客 2019.06.10 ·
108 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive分析窗口函数(四) LAG、LEAD、FIRST_VALUE和LAST_VALUE

数据cookie4.txtcookie1,2015-04-10 10:00:02,url2cookie1,2015-04-10 10:00:00,url1cookie1,2015-04-10 10:03:04,1url3cookie1,2015-04-10 10:50:05,url6cookie1,2015-04-10 11:00:00,url7cookie1,2015-04-10 ...
原创
发布博客 2019.06.04 ·
693 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive 数据分析函数之三ROW_NUMBER,RANK,DENSE_RANK

ROW_NUMBER() 的应用场景非常多 :不并列不留空位RANK() 生成数据项在分组中的排名,排名相等会在名次中留下空位DENSE_RANK() 生成数据项在分组中的排名,排名相等会在名次中不会留下空位select cookieid,cookietime,pv,rank() OVER(partition by cookieid order by pv ) as pv1,dense_...
原创
发布博客 2019.06.04 ·
214 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive 数据分析窗口函数之五 GROUPING SETS GROUPING__ID CUBE ROLLUP

概述:GROUPING SETS,GROUPING__ID,CUBE,ROLLUP这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。cookie5.txt2015-03,2015-03-10,cookie12015-03,2015-03-10,cookie52015-03,2015-03-12,cookie72015-...
原创
发布博客 2019.06.04 ·
237 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive order by group by

1.order by 全局排序,只有一个reduce,所以一般不用,使用场景可以理解为:一个输出文件2.窗口函数中的 order by 并不是只有一个 reduce3.group by 相同的key进入为一组, 不同的key可以进入一个reduce ,但是相同的key一定在一个reduce ,...
原创
发布博客 2019.06.04 ·
878 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive union all

功能:将两个表中的 相同的字段拼接到一起特点:union all不去重,数据会重复 ,hive不支持unionunion all必须满足如下要求字段名字一样字段类型一样字段个数一样子表不能有别名如果需要从合并之后的表中查询数据,那么合并的表必须要有别名select * from (select * from munion allselect * from n)temp;...
原创
发布博客 2019.06.03 ·
4310 阅读 ·
4 点赞 ·
0 评论 ·
11 收藏

Hive-mapjoin

hive的高级查询设置mapjoin二种方式第一种:set hive.auto.convert.join=true;第二种查询时: select /*+mapjoin(n)*/ age from table1 join on xx=xx;建表:create table test1(cookieid string,cookietime string,pv int);测试数据:...
原创
发布博客 2019.06.03 ·
277 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

理解数据仓库中星型模型和雪花模型

原 理解数据仓库中星型模型和雪花模型 2017年07月06日 18:32:27 葬月魔帝 阅读数:13386 ...
转载
发布博客 2019.06.03 ·
371 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Hive开窗函数总结

[转载](https://blog.csdn.net/Abysscarry/article/details/81408265)背景: 平常我们使用 hive或者 mysql时,一般聚合函数用的比较多。但对于某些偏分析的需求,group by可能很费力,子查询很多...
转载
发布博客 2019.06.01 ·
300 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive 学习系列 hive 常用数据清洗函数

1,case when 的利用,清洗诸如评分等的内容,用例如下。case when new.comment_grade = '五星商户' then 50 when new.comment_grade = '准五星商户' then 45 when...
转载
发布博客 2019.05.31 ·
489 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

hive 学习系列四(UDF)

如果入参是简单的数据类型,直接继承UDF,实现一个或者多个evaluate 方法。具体流程如下:1,实现大写字符转换成小写字符的UDFpackage com.example.hive.udf;import org.apache.hadoop.hive.ql...
转载
发布博客 2019.05.31 ·
464 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Spark性能优化指南——高级篇

前言数据倾斜调优调优概述数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码查看导致数据倾斜的key的数据分布情况数据倾斜的解决方案解决方案一:使用Hive ETL预处理数据解决方案二:过滤少数导致倾斜的key解决方案三:提高shuffle操作的并行度解决方案四:两阶段聚合(局部聚合+全局聚合)解决方案五:将reduce join转为map join...
转载
发布博客 2019.05.31 ·
126 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark性能优化指南——基础篇

前言开发调优调优概述原则一:避免创建重复的RDD原则二:尽可能复用同一个RDD原则三:对多次使用的RDD进行持久化原则四:尽量避免使用shuffle类算子原则五:使用map-side预聚合的shuffle操作原则六:使用高性能的算子原则七:广播大变量原则八:使用Kryo优化序列化性能原则九:优化数据结构资源调优调优概述Spark作业基本运行原理资源参数调优...
转载
发布博客 2019.05.31 ·
126 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark性能优化:资源调优篇

      在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的...
转载
发布博客 2019.05.31 ·
159 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

spark 性能优化|12 个优化方法

原文:http://litaotao.github.io/boost-spark-application-performance本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录,所以一切以能够理解为主,没有必要的细节就不会记录了,而且文中有时候会出现英文原版文...
转载
发布博客 2019.05.31 ·
335 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多