Pyspark系列笔记--错误Unable to acquire XXXXX bytes of memory

前言

实验环境:

pyspark 1.5.0
python 2.7


今天依然在学习pyspark,感觉真的是在天天写bug…
今天又遇到了一个非常坑爹的错误。

Step1. 我在一个全新的Dataframe上面应用自己的一个函数,这个函数测试通过。
Step 2. 对这个DataFrame做了几次计算以及join以后,发生了错误:Unable to acquire XXXXX bytes of memory。

我百思不得其解,我以为是哪里格式不对,测试了半天。
我确定我自己应用到此函数的输入格式以及传入的参数都是对的。
那是为什么???

难道是我的内存不够了吗?
我又去优化了我的程序,减少了rdd的产生。
然而还是失败的。

知道我发现了这篇spark 1.5.x 错误博客,才得到解决方法。

这个问题的产生关乎一个优化器 Tungsten,它默认单元分配的内存是64MB。
如果你总共只有1g内存并且超过4个线程,这个值就太高。

通过设置:

spark.buffer.pageSize 16m

或者直接将tungsten关闭(不推荐)

spark.sql.tungsten.enabled false

这样我的问题得以解决,但是程序非常的慢,说明优化器还是很重要的。
然后要强调的一点是pageSize设置的越小越能解决这个问题,应该是允许的同时出现的线程数就越多,但是估计换入换出的次数变多,导致程序变慢。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值