如何解决Hive数据倾斜的问题

⾸先要知道的是数据倾斜的本质是数据分配不均匀,那么造成不均匀的原因有很多,⽐如热点key,⾮热 点key分布不均匀等。
那么需要定位到具体发⽣原因,才能对症下药。从技术层⾯来说
(1)⾸先怀疑的是数据热点key,这⾥可以根据采样统计来判断是否有部分key记录过多
(2)如果是热点key,则可以采⽤单独处理或者⼆次聚合等⽅法来处理
(3)如果不是热点key,那么有可能是key本身分布不均匀导致的,那么可以采⽤随机前缀、groupby替代
distinct、mapjoin、空值处理等⼀些⼿段来将key进⾏随机分区
从业务层⾯来说,有可能是提供计算⼝径有问题导致的倾斜问题,例如订单和⽀付关联,正常应该是100w,但是从explain来看,关联得到的结果是1000w或者更多,可需要考虑逻辑⼝径是否有问题。
以上两种⼿段再结合⼀些参数化的配置可以彻底解决倾斜问题
  • 9
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值