数据倾斜的解决方案

目录

方案一 硬编码

方案二 map join


这篇文章给大家介绍两种数据倾斜的代码层解决方案。

方案1:硬编码,将倾斜的值打散。

方案2:map join

 

背景:多张表在进行关联时,可能有一个key的值非常多,导致某个reduce处理时间过久,此时产生了数据倾斜。

 

方案一 硬编码

方案1是用拆分空值和总量较多的key值进行优化。

举例:table 2和table 1关联,key为ucid,table 2 的ucid非常随机,且有一两条ucid为-911的数据,总体没有倾斜。

table1的数据中有许多ucid=-911的数据,假如说是1000w条,那么在关联的时候肯定会出现数据倾斜。

先判断这部分key值是否实际有用,如果没有用,直接转换成随机值,将数据打散。

关联条件为:
on if
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值