HIVE调优之去重统计

最新推荐文章于 2024-01-04 15:37:16 发布

weixin_30716725

最新推荐文章于 2024-01-04 15:37:16 发布

阅读量504

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/xiangyuguan/p/11412761.html

版权

SELECT COUNT( DISTINCT id ) FROM TABLE_NAME WHERE ...;

对一个表中符合条件的记录统计不重复的id的总数。由于引入了DISTINCT，因此在Map阶段无法利用combine对输出结果消重，必须将id作为Key输出，在Reduce阶段再对来自于不同Map Task、相同Key的结果进行消重，计入最终统计值。作业运行时的Reduce Task个数为1，对于统计大数据量时，这会导致最终Map的全部输出到单个ReduceTask处理。这唯一的Reduce Task需要Shuffle大量的数据，并且进行排序聚合等处理，这使得它成为整个作业的IO和运算瓶颈

改进：

SELECT COUNT(*) FROM (SELECT DISTINCT id FROM TABLE_NAME WHERE … ) t;

利用Hive对嵌套语句的支持，将原来一个MapReduce作业转换为两个作业，在第一阶段选出全部的非重复id，在第二阶段再对这些已消重的id进行计数。这样在第一阶段我们可以通过增大Reduce的并发数，并发处理Map输出。在第二阶段，由于id已经消重，因此COUNT(*)操作在Map阶段不需要输出原id数据，只输出一个合并后的计数即可

转载于:https://www.cnblogs.com/xiangyuguan/p/11412761.html

weixin_30716725

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。