Hive>Group By和Count与笛卡尔积

本文探讨了Hive中的Group By操作,默认情况下的数据分发原理以及如何通过开启Map端聚合提高效率。同时,文章指出在大数据量下Count(distinct)操作可能面临的挑战,并给出解决方案。此外,还强调了避免笛卡尔积的重要性,因为无条件JOIN会导致性能严重下降。
摘要由CSDN通过智能技术生成

Group By

  • 默认情况下,Map阶段同一Key数据分发给一个reduce,当一个key数据过大时就倾斜了。
    并不是所有的聚合操作都需要在Reduce端完成,很多聚合操作都可以先在Map端进行部分聚合,最后在Reduce端得出最终结果。

1)开启Map端聚合参数设置

(1)是否在Map端进行聚合,默认为True
set hive.map.aggr = true;

(2)在Map端进行聚合操作的条目数目
set hive.groupby.mapaggr.checkinterval = 100000;

(3)有数据倾斜的时候进行负载均衡(默认是false)
set hive.groupby.skewindata = true;

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值