Uncaught exception while reverting partial writes to file ...(Too many open files)

在用一个新的spark集群 处理业务时,处理的任务量稍微大一点,涉及到较多的map和reduce的任务式就会报下列错误:

 

开始以为是spark集群的内存没给够,因为在另一个更大集群中和自己只有6g的单机上跑都没有问题,但尝试加大集群运行内存和集群worker和executor数量后仍然报同样地错误。在技术群里问了一下,有人提示说是centos系统的系统参数没有设置好,沿着这个线索对比了出问题的spark集群的系统参数后:

       有问题的集群                                                                                         能跑的集群

发现有问题的max user processes  (-u) 仅为1024 ,在把max user processes更改到最大值时,重启后原先的问题就消失了。

更改后(在更改的过程中顺手也把open files 的数量也加到了最大)

centos系统参数的更改方法参见博客1博客2

折磨我多日的问题终于解决。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值