记一次奇葩的Spark内存溢出OOM

最新推荐文章于 2023-11-09 10:15:05 发布

Just Jump

最新推荐文章于 2023-11-09 10:15:05 发布

阅读量1.3k

点赞数

分类专栏： Scala开发日志 spark 文章标签： spark scala OOM 分区和并行

本文链接：https://blog.csdn.net/eylier/article/details/120420584

版权

74 篇文章 1 订阅

订阅专栏

28 篇文章 1 订阅

订阅专栏

错误信息如下：

org.apache.spark.memory.SparkOutOfMemoryError: Unable to acquire 1048576 bytes of memory, got 65536

内存溢出的位置：做JOIN操作的时候，内存溢出了。

首先，定位下任务使用的资源，

其次，调参数

--driver-cores 4 \
--driver-memory 8G \
--executor-cores 4 \
--executor-memory 16G \

--num-executors 200 \

一般我们会设置的参数是 driver的核数、内存，exector的核数、内存，exector个数。

driver的内存用于管理任务调度和记录task工作节点，以及任务返回的结果等。如果任务数、或返回结果超过了内存，任务会失败，报的也是OOM。

exector的内存用于执行任务，比如shuffle、join之类的，4个core共用这里的16G内存，一个核有4G内存可用。

资源使用图显示的是continer的资源使用，并没有真实的反应excutor使用的内存。

我试着调小exector的核数、增大exector内存，使得每个exector可以使用的内存尽量大些。但仍然报OOM。

我从底层数据排查发现，其中一个上游表的partition设置为100，虽然我执行该任务的时候设置了

--conf spark.sql.shuffle.partitions=3200 \
--conf spark.default.parallelism=3200 \

但是因为读取的数据只有100个partitions，在shuffle和join的时候还是引发了OOM问题。

解决方法：

1、在读取完上游文件后 .repartition(3200) ，增大并行度

2、建议上游文件在合并分区的时候使用下面的设置，而不是设定一个固定的分区数，以免数据量增大后，分区数不够影响使用

--conf spark.sql.hive.mergeFiles=true \

关注