Spark使用一段时间后,发现磁盘空间没有了,尤其是运行SparkStreaming
Spark streaming在不断的写日志,日志将磁盘撑满了。无论磁盘空间多大,都会撑破的。有时运行一个晚上,有时运行一个上午,磁盘写满了。
1、配置log最大的保存文件大小!!最多保存多少文件!
2、配置每一个文件的最大的大小!
3、executor roll的间隔时间interval按天、小时、分钟设置
4、按时间长短 或size大小设置rolling大小。spark.executor.logs.rolling.maxSize
http://blog.csdn.net/u011291159/article/details/50344517
下面三个日志rolling参数记得设置:
spark.executor.logs.rolling.strategy size
spark.executor.logs.rolling.maxSize 134217728 #default byte
spark.executor.logs.rolling.maxRetainedFiles
超时的时间一律调大!!更大的范围内跑通!!一律调大3到5倍!!
zk的会话超时时间
zookeeper.session.timeout.ms
任务的失败次数
很多同学可能有这样的疑问,我明明把连接zk客户端的超时时间sessionTimeout设置为180秒了,可是为什么仅仅过了40几秒就超时了?
其实只这么设置,根本没有任何作用,因为客户端将sessionTimeout的值传给zk时,zk还会根据minSessionTimeout与maxSessionTimeout两个参数重新调整最后的超时值
- public int getMinSessionTimeout() {
- return minSessionTimeout == -1 ? tickTime * 2 : minSessionTimeout;
- }
- public int getMaxSessionTimeout() {
- return maxSessionTimeout == -1 ? tickTime * 20 : maxSessionTimeout;
- }
就是说这两个值,默认分别为tickTime 的2倍和20倍,而tickTime的默认值是3秒,即最后生效的超时时间,一定是6s<timeout<60s,原因如下:
- int minSessionTimeout = zk.getMinSessionTimeout();
- if (sessionTimeout < minSessionTimeout) {
- sessionTimeout = minSessionTimeout;
- }
- int maxSessionTimeout = zk.getMaxSessionTimeout();
- if (sessionTimeout > maxSessionTimeout) {
- sessionTimeout = maxSessionTimeout;
- }
就是这么简单,至于之前说40s超时,那肯定是把tickTime设置成2s了,很多人都这么干。
spark.task.maxFailures 默认4,task重试的次数