Hive>Group By和Count与笛卡尔积

最新推荐文章于 2021-08-28 14:33:53 发布

BigMoM1573

最新推荐文章于 2021-08-28 14:33:53 发布

阅读量387

点赞数

分类专栏： Hive 文章标签： Hive

本文链接：https://blog.csdn.net/qq_44509920/article/details/103351788

版权

本文探讨了Hive中的Group By操作，默认情况下的数据分发原理以及如何通过开启Map端聚合提高效率。同时，文章指出在大数据量下Count(distinct)操作可能面临的挑战，并给出解决方案。此外，还强调了避免笛卡尔积的重要性，因为无条件JOIN会导致性能严重下降。

摘要由CSDN通过智能技术生成

Group By

默认情况下，Map阶段同一Key数据分发给一个reduce，当一个key数据过大时就倾斜了。
并不是所有的聚合操作都需要在Reduce端完成，很多聚合操作都可以先在Map端进行部分聚合，最后在Reduce端得出最终结果。

1）开启Map端聚合参数设置

（1）是否在Map端进行聚合，默认为True
set hive.map.aggr = true;

（2）在Map端进行聚合操作的条目数目
set hive.groupby.mapaggr.checkinterval = 100000;

（3）有数据倾斜的时候进行负载均衡（默认是false）
set hive.groupby.skewindata = true;

最低0.47元/天解锁文章

BigMoM1573

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hive>Group By和Count与笛卡尔积

文章目录Group ByCount(distinct)笛卡尔积Group By默认情况下，Map阶段同一Key数据分发给一个reduce，当一个key数据过大时就倾斜了。并不是所有的聚合操作都需要在Reduce端完成，很多聚合操作都可以先在Map端进行部分聚合，最后在Reduce端得出最终结果。1）开启Map端聚合参数设置（1）是否在Map端进行聚合，默认为Trueset hive...
复制链接

扫一扫

专栏目录