自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 数据倾斜分析与解决方案

0.说在前面的话在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所...

2019-07-28 12:18:51 384

原创 Hive中order by,sort by,distribute by,cluster by的区别以及row_number() over函数的基本用法

一.order by:order by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间。二.sort by:sort by不是全局排序,其在数据进入reducer前完成排序,因此,如果用sort by进行排序,并且设置mapred.reduce.tasks>1,则sort by只...

2019-07-12 12:03:42 4591

原创 Spark实现jieba中文分词(scala)

1.hive原数据:hive> select * from news_noseg limit 10;OK无锡双龙雷斯特优惠元另赠送礼包搜狐汽车购车咨询热线:转搜狐汽车无锡站编辑:赏车、购车、聊车、玩车搜狐汽车无锡车友群:(此群已满)搜狐汽车无锡车友群:(请加此群)搜狐汽车无锡车友群:(此群已满)搜狐汽车无锡车友群:(此群已满)搜狐汽车无锡车友群:(此群已满)搜狐汽车无锡车友群:(此群已...

2019-07-11 17:34:54 9328

原创 用MapReduce实现寻找共同好友(Python)

1.需求:给出A-O个人中每个人的好友列表(好友单向),求出哪些人两两之间有共同好友,以及他们的共同好友都有谁。好友列表数据:A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:...

2019-07-09 23:51:10 2182

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除