Spark数据倾斜_产生原因及定位处理办法_生产环境

Matrix70

已于 2023-12-09 13:05:14 修改

阅读量802

点赞数

分类专栏： Sparkbug解决 Spark_轨迹大数据文章标签： spark 大数据分布式

于 2023-11-16 09:46:36 首次发布

本文为博主原创文章，未经博主允许，不得转载！！

本文链接：https://blog.csdn.net/qq_52128187/article/details/134434587

版权

Spark_轨迹大数据同时被 2 个专栏收录

30 篇文章 0 订阅

订阅专栏

15 篇文章 0 订阅

订阅专栏

在最近的项目中，历史和实时数据进行关联平滑时出现了数据倾斜，产生了笛卡尔积，具体现象如下：运行内存175GB，核数64，运行代码时，查看SparkUI界面的active jobs ，数据输入是1G，成功的stage为0，一直是0/120，由此，通过排查，的确发生笛卡尔积

Spark数据倾斜产生的原因及解决办法：

Spark数据倾斜主要在shuffle过程中由于不同的key对应的数据量不同导致，具体表现是不同的task处理的数据量不同。在Spark作业中，如果存在可能导致数据倾斜的key，可以考虑将这个key进行过滤，滤除可能导致数据倾斜的数据，从而在Spark作业中避免数据倾斜。另外，提高shuffle过程中的reduce端并行度，即增加reduce端的task数量，可以使得每个task分配到的数据量减少，从而缓解数据倾斜问题。

可参考文章：

Spark如何处理数据倾斜-CSDN博客

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。