Hive中GroupBy的实现原理

最新推荐文章于 2025-03-16 20:38:29 发布

i000zheng

最新推荐文章于 2025-03-16 20:38:29 发布

阅读量2.1k

点赞数

分类专栏： Hive 文章标签： Hive 原理

本文链接：https://blog.csdn.net/i000zheng/article/details/80733327

版权

该博客探讨了Hive中的GroupBy操作，默认在Mapper阶段进行预聚合以减轻Reducer负担。通过设置hive.map.aggr=true，Mapper使用hash模式进行部分聚合，Reducer执行mergepartial模式。若禁用map端聚合，GroupBy将在Reducer中完成，采用complete模式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

例子

hive> SELECT * FROM logs;
a	苹果	5
a	橙子	3
a      苹果   2
b	烧鸡	1
 
hive> SELECT uid, SUM(COUNT) FROM logs GROUP BY uid;
a	10
b	1

计算过程

默认设置了hive.map.aggr=true，所以会在mapper端先group by一次，最后再把结果merge起来，为了减少reducer处理的数据量。注意看explain的mode是不一样的。mapper是hash，reducer是mergepartial。如果把hive.map.aggr=false&#