大数据-笔经（Spark数据倾斜）

最新推荐文章于 2024-06-23 16:11:38 发布

Jsoooo

最新推荐文章于 2024-06-23 16:11:38 发布

阅读量131

点赞数

分类专栏： hadoop Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41227335/article/details/88364934

版权

hadoop 同时被 2 个专栏收录

28 篇文章 0 订阅

订阅专栏

18 篇文章 0 订阅

订阅专栏

小赵在测试spark的时候，写了如下的代码：
do
lines = sc.textFile("data.txt")
pairs = lines.map(lambda s: (s, 1))
counts = pairs.groupByKey(lambda a, b: a + b)
结果运行时等待了一段时间直接报错，data.txt文件较大，小赵对其进行抽样后结果如下：
data
apple
apple
apple
new
name
apple
apple
work
as
请分析报错的原因以及解决方案

参考答案：

报错是由于数据倾斜导致的
数据倾斜的原因，由于key本身分布不均衡（重要），或者shuffle时的并发度不够，过多的数据在同一个task中运行，把executor撑爆。

解决方案（前三点任一）

1）隔离执行，将异常的key过滤出来单独处理，最后与正常数据的处理结果进行union操作。

2）对key先添加随机值，进行操作后，去掉随机值，再进行一次操作：
           将原始的 key 转化为 key + 随机值(例如Random.nextInt)
           对数据进行 reduceByKey(func)
           将 key + 随机值 转成 key
           再对数据进行 reduceByKey(func)
           
3）使用reduceByKey 代替 groupByKey，reduceByKey已经做过一次merge，节约了内存

4）调高shuffle的并行度

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Jsoooo CSDN认证博客专家 CSDN认证企业博客

码龄7年

119: 原创

25万+: 周排名

184万+: 总排名

20万+: 访问

: 等级

2667: 积分

23: 粉丝

46: 获赞

16: 评论

179: 收藏

私信

关注

热门文章

分类专栏

最新评论

SVM-拉格朗日乘子法
CSDN-Ada助手: 非常感谢博主分享有关SVM-拉格朗日乘子法的博客，我觉得这样的技术文章对其他用户了解SVM算法非常有帮助。下一篇你可以继续就SVM算法的优化方法或者SVM算法在实际应用中的案例分享继续写，相信会有更多读者受益。加油！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
指标、维度与度量
m0_61198857: 字都抄错了不知道该一下吗，转载者有读过文章没？
Kafka-Poll()
hongzhangzhao: 也可以传记录数
ECharts-dom初始化报错
小小盗草人: 这种出错地放就别发文章了
ECharts-dom初始化报错
小小盗草人: 你能放head里也是牛逼

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。