Hadoop计算框架特性

最新推荐文章于 2024-03-16 17:46:57 发布

chushouxiu0552

最新推荐文章于 2024-03-16 17:46:57 发布

阅读量267

点赞数

文章标签：大数据

原文链接：https://my.oschina.net/u/4085644/blog/3020193

版权

1.数据量大不是问题，数据倾斜是个问题。
2.jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，耗时很长。原因是map reduce作业初始化的时间是比较长的。
3.sum,count,max,min等UDAF，不怕数据倾斜问题,hadoop在map端的汇总合并优化，使数据倾斜不成问题。
4.count(distinct ),在数据量大的情况下，效率较低，如果是多count(distinct )效率更低，因为count(distinct)是按group by 字段分组，按distinct字段排序，一般这种分布方式是很倾斜的，比如男uv,女uv，淘宝一天30亿的pv，如果按性别分组，分配2个reduce,每个reduce处理15亿数据。

转载于:https://my.oschina.net/u/4085644/blog/3020193

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop计算框架特性

1.数据量大不是问题，数据倾斜是个问题。 2.jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，耗时很长。原因是map reduce作业初始化的时间是比较长的。 3.sum,count,max,min等UDAF，不怕数据倾斜问题,hado...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。