Pyspark系列笔记--错误Unable to acquire XXXXX bytes of memory

最新推荐文章于 2022-04-26 11:18:08 发布

bra_ve

最新推荐文章于 2022-04-26 11:18:08 发布

阅读量2.4k

点赞数

分类专栏： pyspark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bra_ve/article/details/79585005

版权

pyspark 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

前言

实验环境：

pyspark 1.5.0
python 2.7

今天依然在学习pyspark，感觉真的是在天天写bug…
今天又遇到了一个非常坑爹的错误。

Step1. 我在一个全新的Dataframe上面应用自己的一个函数，这个函数测试通过。

Step 2. 对这个DataFrame做了几次计算以及join以后，发生了错误：Unable to acquire XXXXX bytes of memory。

我百思不得其解,我以为是哪里格式不对，测试了半天。
我确定我自己应用到此函数的输入格式以及传入的参数都是对的。
那是为什么？？？

难道是我的内存不够了吗？
我又去优化了我的程序，减少了rdd的产生。
然而还是失败的。

知道我发现了这篇spark 1.5.x 错误博客，才得到解决方法。

这个问题的产生关乎一个优化器 Tungsten，它默认单元分配的内存是64MB。
如果你总共只有1g内存并且超过4个线程，这个值就太高。

通过设置：

spark.buffer.pageSize 16m

或者直接将tungsten关闭(不推荐)

spark.sql.tungsten.enabled false

这样我的问题得以解决，但是程序非常的慢，说明优化器还是很重要的。
然后要强调的一点是pageSize设置的越小越能解决这个问题，应该是允许的同时出现的线程数就越多，但是估计换入换出的次数变多，导致程序变慢。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。