spark数据清洗解决方案

数据倾斜的解决方案 之 小表join大表转为小表broadcast+map大表实现。
适用场景:在对RDD使用join类操作,或者是在Spark SQL中使用join语句时,
并且join操作中的一个RDD或表的数据量比较小(比如几百M或者一两G)。
实现原理:普通的join是会走shuffle过程的,而一旦shuffle,
就相当于会将相同key的数据拉取到一个shuffle read task中再进行join,此时就是reduce join。
但是如果一个RDD比较小,则可以采用广播小RDD全量数据+map算子来实现与join同样的效果,也就是map join,
将较小RDD中的数据直接通过collect算子拉取到Driver端的内存中来,然后对其创建一个Broadcast变量;
接着对另外一个RDD执行map类算子,在算子函数内,从Broadcast变量中获取较小RDD的全量数据,
与当前RDD的每一条数据按照连接key进行比对,如果连接key相同的话,那么就将两个RDD的数据用需要的方式连接起来。
此时不会发生shuffle操作,也就不会发生数据倾斜。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值