hive-mapreduce过程中数据倾斜处理办法

1 篇文章 0 订阅
1 篇文章 0 订阅

当数据分布不均匀时,在mapreduce过程中会产生数据倾斜,具体表现为某个job执行时间非常长。

看是因为group by倾斜还是join引起的倾斜

1.group by倾斜
set hive.groupby.skewindata = true
先不按GroupBy字段分发,随机分发做一次聚合
额外启动一轮job,拿前面聚合过的数据按GroupBy字段分发再算结果

2.JOIN倾斜
set hive.optimize.skewjoin = true (负载均衡)
关联时有大量空值就给空值一个随机数
有大key时可以单独处理大key然后和别的结果union all

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值