数据倾斜的解决方案

目录

方案一 硬编码

方案二 map join


这篇文章给大家介绍两种数据倾斜的代码层解决方案。

方案1:硬编码,将倾斜的值打散。

方案2:map join

 

背景:多张表在进行关联时,可能有一个key的值非常多,导致某个reduce处理时间过久,此时产生了数据倾斜。

 

方案一 硬编码

方案1是用拆分空值和总量较多的key值进行优化。

举例:table 2和table 1关联,key为ucid,table 2 的ucid非常随机,且有一两条ucid为-911的数据,总体没有倾斜。

table1的数据中有许多ucid=-911的数据,假如说是1000w条,那么在关联的时候肯定会出现数据倾斜。

先判断这部分key值是否实际有用,如果没有用,直接转换成随机值,将数据打散。

关联条件为:
on if(table1.ucid=-911,rand(),table1.ucid) = table2.ucid

如果-911的数据是有用的,则需要做其它处理。

在table1中将-911的数据进行“分裂”处理:

if(table1.ucid=-911,concat(table1.ucid,'_',pmod(ceil(rand()*1000000),10)),table1.ucid) as table1.ucid
<
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值