Hive解决数据倾斜方法

根本原因:数据过于集中。解决的基本思路:打散。

容易产生数据倾斜的几种情况:count distinct、group by key、Join。

  1. count distinct :

     数据量小的时候无所谓,数据量大的情况下,由于COUNT DISTINCT操作需要用一个Reduce Task来完成,这一个Reduce需要处理的数据量太大,就会导致整个Job很难完成,一般COUNT DISTINCT使用先GROUP BY再COUNT的方式替换。

  1. group by key:

     两种解决方法:第一种解决方案1)设置参数:这里有两个参数。i)开启map端聚合。
           ii)有数据倾斜的时候开启负载均衡。开启了负载均衡以后,会生成两个mr,第一个mr会打散数据,也就是随机分发数据,进行局部聚合;第二个mr根据group by key的逻辑完成全局聚合。

2)手动优化sql:

两阶段聚合,加盐局部聚合,去盐全局聚合。(利用random构造辅助列,先group by  key,random,进行局部聚合;再group by key完成全局聚合)。

  1. Join:

       查看日志找到倾斜的key

  1. 如果倾斜的key是脏数据,直接过滤掉;
  2. 增加reduce个数
  3. 如果两个表join的时候,一个表为小表,可以用mapjoin做。
  4. 如果是两个大表join,并且倾斜的 key 有实际的意义,可以将它们单独抽取出来,对应的行单独存入临时表中,然后打上一个较小的随机数前缀(比如0~9),最后再进行聚合。
  5. 设置hive.optimize.skewjoin=true。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值