spark executor内存足够使用，却报错SparkOutOfMemory： Unable to acquire xxx bytes of memory，如何解决？是否与coalesce有关？

最新推荐文章于 2023-09-18 14:41:51 发布

慢点走

最新推荐文章于 2023-09-18 14:41:51 发布

阅读量1.7k

点赞数 1

分类专栏： spark 项目文章标签： executor 内存足够使用内存溢出 spark coalesce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42845682/article/details/111599887

版权

项目同时被 2 个专栏收录

18 篇文章 3 订阅

订阅专栏

5 篇文章 1 订阅

订阅专栏

文章目录

问题描述
解决办法

问题描述

      从spark查出来数据后可以再次保存到hive中。当数据量不是很大的时候，为了避免产生过多小文件，可以使用重分区来解决。
      重分区有两个方法：coalesce 和 repartition 。本文重点不是介绍这两个方法，所以大概说一下区别：coalesce 不需要shuffle，而 repartition 需要 shuffle。而为了避免shuffle，则可以使用coalesce。
      当代码如下时：

	df.coalesce(1)
      .write
      .mode(SaveMode.Overwrite) 
      .saveAsTable("test.test")

即使executor的内存远远大于数据量时，有时仍然会报错： Unable to acquire xxx bytes of memory
我的情况是：executor内存是32G，核是8个，聚合后的数据量大概是50M左右，但是仍然出现了上述的错误。但可以肯定的是，不是内存不够了。

解决办法

      经过查证，coalesce在参数过小时（例如1），并行度不够，所以只会在很少的节点上运行。
而repartition(1)虽然会加入shuffle步骤，但是上游的分区会并行执行。
      所以只要将代码中的coalesce(1)改为repartition(1)即可。

	df.repartition(1)
      .write
      .mode(SaveMode.Overwrite) 
      .saveAsTable("test.test")

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark executor内存足够使用，却报错SparkOutOfMemory： Unable to acquire xxx bytes of memory，如何解决？是否与coalesce有关？

文章目录问题描述解决办法问题描述      从spark查出来数据后可以再次保存到hive中。当数据量不是很大的时候，为了避免产生过多小文件，可以使用重分区来解决。      重分区有两个方法：coalesce 和 repartition 。本文重点不是介绍这两个方法，所以大概说一下区别：coalesce 不需要shuffle，而 repartition 需要 shuffle。而为
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。