Spark磁盘空间满了

Spark使用一段时间后,发现磁盘空间没有了,尤其是运行SparkStreaming


Spark streaming在不断的写日志,日志将磁盘撑满了。无论磁盘空间多大,都会撑破的。有时运行一个晚上,有时运行一个上午,磁盘写满了。
1、配置log最大的保存文件大小!!最多保存多少文件!
2、配置每一个文件的最大的大小!
3、executor roll的间隔时间interval按天、小时、分钟设置
4、按时间长短 或size大小设置rolling大小。spark.executor.logs.rolling.maxSize

http://blog.csdn.net/u011291159/article/details/50344517

下面三个日志rolling参数记得设置: 
spark.executor.logs.rolling.strategy size 
spark.executor.logs.rolling.maxSize 134217728 #default byte 
spark.executor.logs.rolling.maxRetainedFiles

 

http://geeks.aretotally.in/spark-streaming-kafka-direct-api-store-offsets-in-zk/

超时的时间一律调大!!更大的范围内跑通!!一律调大3到5倍!!

 

zk的会话超时时间

zookeeper.session.timeout.ms

 

任务的失败次数

spark.task.maxFailures 默认是4次,调成8次和10次

spark.streaming.kafka.maxRetries  调成 3次和5次
 
spark streaming 要使用direct api的方式


很多同学可能有这样的疑问,我明明把连接zk客户端的超时时间sessionTimeout设置为180秒了,可是为什么仅仅过了40几秒就超时了?

    其实只这么设置,根本没有任何作用,因为客户端将sessionTimeout的值传给zk时,zk还会根据minSessionTimeout与maxSessionTimeout两个参数重新调整最后的超时值

Java代码   收藏代码
  1. public int getMinSessionTimeout() {  
  2.     return minSessionTimeout == -1 ? tickTime * 2 : minSessionTimeout;  
  3. }  
  4.   
  5.   
  6. public int getMaxSessionTimeout() {  
  7.     return maxSessionTimeout == -1 ? tickTime * 20 : maxSessionTimeout;  
  8. }  

 

就是说这两个值,默认分别为tickTime 的2倍和20倍,而tickTime的默认值是3秒,即最后生效的超时时间,一定是6s<timeout<60s,原因如下:

Java代码   收藏代码
  1. int minSessionTimeout = zk.getMinSessionTimeout();  
  2. if (sessionTimeout < minSessionTimeout) {  
  3.     sessionTimeout = minSessionTimeout;  
  4. }  
  5. int maxSessionTimeout = zk.getMaxSessionTimeout();  
  6. if (sessionTimeout > maxSessionTimeout) {  
  7.     sessionTimeout = maxSessionTimeout;  
  8. }  

 

 就是这么简单,至于之前说40s超时,那肯定是把tickTime设置成2s了,很多人都这么干。


spark.task.maxFailures 默认4,task重试的次数



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值