Spark两个rdd join发生数据倾斜的典型情况

最新推荐文章于 2023-06-10 12:32:11 发布

runzhliu

最新推荐文章于 2023-06-10 12:32:11 发布

阅读量596

点赞数

分类专栏： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/oscarun/article/details/104156026

版权

Spark 专栏收录该内容

48 篇文章 6 订阅

订阅专栏

有两个RDD，分别是RDDA[Ka, Va] 和 RDDB[Kb, Vb]，数据量都比较大，在做join操作的时候，可以看出，shuffle read 有严重的数据倾斜现象，导致拖慢了整个 job 的速度：
在这里插入图片描述

其实从上述问题中，可以看出来，index=0 的 task 必然有问题，如果不熟悉自己的数据分布的话，很容易误以为自己的数据分布是均匀的，所以建议打印出来前十个 key 出来看看。

否则就可能出现必须加大 executor 的内存量，不然某个 task 所在的 executor 有可能因为数据太多，内存撑爆导致 OOM，加大了内存，又导致内存浪费，所以正确的做法，是先了解自己数据的基本面，再去写业务代码的逻辑。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。