spark mysql oom_spark调优篇-oom 优化(汇总)

最新推荐文章于 2024-01-13 13:24:26 发布

寒山皓月

最新推荐文章于 2024-01-13 13:24:26 发布

阅读量312

点赞数

文章标签： spark mysql oom

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_30003217/article/details/113969500

版权

本文主要探讨了Spark运行过程中出现的OOM问题及其解决方案，包括Driver和Executor内存不足的情况。提出通过调整分区、使用mapPartitions、DataFrame代替RDD、broadcast join、cache和persist等方法来优化内存使用，减少数据倾斜和内存溢出。

摘要由CSDN通过智能技术生成

spark 之所以需要调优，一是代码执行效率低，二是经常 OOM

内存溢出

内存溢出无非两点：

1. Driver 内存不够

2. Executor 内存不够

Driver 内存不够无非两点：

1. 读取数据太大

2. 数据回传

Executor 内存不够无非两点：

1. map 类操作产生大量数据，包括 map、flatMap、filter、mapPartitions 等

2. shuffle 后产生数据倾斜

Executor 内存不够

有个通用的解决办法就是增加 Executor 内存

--executor-memory MEM Memory per executor (e.g. 1000M, 2G) (Default: 1G).

但这并不一定是最好的办法

map 过程产生大量对象

造成 Executor 内存溢出

解决思路是减少每个 task 的大小，从而减少每个 task 的输出；

具体做法是在会产生大量对象的 map 操作前添加 repartition(重新分区) 方法，分区成更小的块传入 map

rdd.flatMap(lambda x: ['%d'%x*50 for _ in range(100000000)]).count() #100 * 100000000 个对象，内存溢出

rdd.flatMap(lambda x: len(['%d'%x*50 for _ in range(100000000)])).sum() #内存溢出

rdd.repartition(1000000).flatMap(lambda x: ['%d

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark mysql oom_spark调优篇-oom 优化(汇总)

spark 之所以需要调优，一是代码执行效率低，二是经常 OOM内存溢出内存溢出无非两点：1. Driver 内存不够2. Executor 内存不够Driver 内存不够无非两点：1. 读取数据太大2. 数据回传Executor 内存不够无非两点：1. map 类操作产生大量数据，包括 map、flatMap、filter、mapPartitions 等2. shuffle 后产生数据倾斜Exe...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。