Spark相关参数

应用配置

参数名称默认值描述
spark.app.name应用名称,在UI和日志中使用
spark.driver.cores1在cluster模式中有效,driver进程使用的core数量
spark.driver.maxResultSize1Gspark中每一个action计算所有分区的序列化结果大小,超出这个值,程序将会终止
spark.driver.memory1Gdriver进程运行的内存大小。可以在程序代码中通过SparkConf进行设置,也可以在spark-submit中使用--driver-memory进行设置
spark.executor.memory1G每一个executor执行的内存大小
spark.extraListeners实现SparkListener的监听器,在SparkContext初始化时创建出来
spark.local.dir/tmp用于spark应用中空间划分,map输出结果、RDD结果存储
spark.logConffalse SparkContext中有效的日志设置(INFO级)
spark.masterspark应用连接的master
spark.submit.deployModeclient/cluster










运行环境配置

spark.driver.extraClassPathdriver运行扩展的classpath
spark.driver.extraJavaOptionsdriver运行扩展JVM参数
spark.driver.extraLibraryPathJVM家在driver时,扩展包路径
spark.driver.userClassPathFirstfalsedriver启动加载的用户自定义的包路径,只在cluster模式下有效
spark.executor.extraClassPathexecutor扩展class路径
spark.executor.extraJavaOptionsexecutor扩展JVM参数
spark.executor.extraLibraryPathexecutor扩展包路径
spark.executor.logs.rolling.maxRetainedFiles系统保留日志文件最大数量
spark.executor.logs.rolling.enableCompressionfalse系统保留日志文件是否压缩
spark.executor.logs.rolling.maxSize日志文件保存策略之-系统保留日志文件的最大大小
spark.executor.logs.rolling.strategy设置日志文件保存策略
spark.executor.logs.rolling.time.intervaldaily日志文件保存策略之-系统保留日志文件的最大时间
spark.executor.userClassPathFirstfalse 
spark.executorEnv.[EnvironmentVariableName] 
spark.python.profilefalse 
spark.python.profile.dump 
spark.python.worker.memory512M每一个python的worker进程的内存大小,在运行期间,如果数据大小超过这个限制,数据将会被分片并保存在磁盘上
spark.python.worker.reuseture 
spark.files 每一个worker执行的工作目录
spark.submit.pyFiles  
spark.jars driver和executor将会加载的jars
spark.jars.packages  
spark.jars.excludes  
spark.jars.ivy  
spark.pyspark.driver.python  
spark.pyspark.python  


Shuffle行为

参数名称默认值描述
spark.reducer.maxSizeInFlight48Mmap端的输出会同时为每一个reduce task生成一份所需数据,这些数据使用的最大内存缓存大小。
spark.reducer.maxReqsInFlightInt.MaxValue 
spark.shuffle.compresstrue是否压缩map端输出,压缩方式会使用spark.io.compression.codec的配置
spark.shuffle.file.buffer32K每一个Shuffle文件在内存中的大小
spark.shuffle.io.maxRetries3由于IO问题导致数据抓取失败的重试次数,可以解决由长时间GC和短暂的网络问题导致的IO问题
spark.shuffle.io.numConnectionsPerPeer1 
spark.shuffle.io.preferDirectBufstrue 
spark.shuffle.io.retryWait5s重试的时间间隔
spark.shuffle.service.enabledfalse 
spark.shuffle.service.port7337 
spark.shuffle.service.index.cache.entries1024 
spark.shuffle.sort.bypassMergeThreshold200 
spark.shuffle.spill.compresstrue压缩shuffle阶段切片的数据
spark.io.encryption.enabledfalse加密
spark.io.encryption.keySizeBits128加密关键字长度
spark.io.encryption.keygen.algorithmHmacSHA1加密算法















SparkUI

spark.eventLog.compressfalse是否日志事件
spark.eventLog.dirfile:///tmp/spark-events 
spark.eventLog.enabledfalseSpark应用事件记录,可用时,以上参数才能生效
spark.ui.enabledtruewebUI是否可用
spark.ui.killEnabledtrue是否可以在UI界面中结束job任务
spark.ui.port4040UI端口
spark.ui.retainedJobs1000垃圾回收之前保存的job数量
spark.ui.retainedStages1000垃圾回收之前保存的stage数量
spark.ui.retainedTasks100000垃圾回收之前保存的task数量
spark.ui.reverseProxyfalse 
spark.ui.reverseProxyUrl  
spark.worker.ui.retainedExecutors1000 
spark.worker.ui.retainedDrivers1000 
spark.sql.ui.retainedExecutions1000 
spark.streaming.ui.retainedBatches1000 
spark.ui.retainedDeadExecutors100 















压缩序列化


更多http://spark.apache.org/docs/latest/configuration.html





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

向往的生活Life

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值