Spark两个rdd join发生数据倾斜的典型情况

有两个RDD,分别是RDDA[Ka, Va] 和 RDDB[Kb, Vb],数据量都比较大,在做join操作的时候,可以看出,shuffle read 有严重的数据倾斜现象,导致拖慢了整个 job 的速度:
在这里插入图片描述


其实从上述问题中,可以看出来,index=0 的 task 必然有问题,如果不熟悉自己的数据分布的话,很容易误以为自己的数据分布是均匀的,所以建议打印出来前十个 key 出来看看。

否则就可能出现必须加大 executor 的内存量,不然某个 task 所在的 executor 有可能因为数据太多,内存撑爆导致 OOM,加大了内存,又导致内存浪费,所以正确的做法,是先了解自己数据的基本面,再去写业务代码的逻辑。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值