应用相关属性
[重要] spark.app.name
默认值,无
应用的名字,在spark ui或者日志里都会用到
[重要] spark.driver.cores
默认值,1
driver程序在cluster模式下使用的核数
spark.driver.maxResultSize
默认值,1g
限制 spark action操作获取的结果大小,至少1M,如果配置为0则代表无限制。当任务获取数据到达该限制时会停止。如果配置的过大,可能会造成jvm的oom。
[重要] spark.driver.memory
默认值,1g
driver进程使用的内存大小,当sparkContext初始化时,会基于改配置格式化。如果是client模式,这个配置仅能通过 SparkConfig 在代码中指定,因为JVM此时已经启动了。或者使用 --driver-memory 在程序提交时配置。
spark.driver.memoryOverhead
默认值,driver内存*0.1
driver使用的堆外内存大小,如果没有单位则默认为MB。
[重要] spark.executor.memory
默认值,1g
executor进程的内存大小
spark.executor.pyspark.memory
默认值,无
Pyspark每个executor的内存,如果没有配置Spark不会限制python内存的使用。
spark.executor.memoryOverhead
默认值,executor内存*0.1
executor分配的对外内存
[重要] spark.extraListeners
默认值,无
SparkListener实现类,多个用逗号拼接。当执行初始化时,会通过这个接口进行特定的触发操作。如果类由单个参数如SparkConf的构造器,则默认优先使用;否则默认调用无参的构造方法。如果没有找到合适的构造方法,会直接抛出异常。
[重要] spark.local.dir
默认值,/tmp
Spark的应用执行目录,里面会包含RDD的相关信息。这部分的数据应该存放在更快的本地磁盘,可以通过逗号拼接配置到多个磁盘中。在Spark1.0之后在集群模式下会被一下参数覆盖:standalone 下的 SPARK_LOCAL_DIRS,mesos 下的 MESOS_SANDBOX,yarn 下的 LOCAL_DIRS。
spark.logConf
默认值,false
当SparkContext启动时,在日志中输出当前有效的SparkConf配置
[重要] spark.master
默认值,无
本地模式如 local, local[*],Standalone如 spark://HOST:PORT,mesos如 mesos://HOST/PORT,yarn如 yarn-cluster, k8s如 k9s://HOST:PORT
[重要] spark.submit.deployMode
默认值,无
应用部署的模式,如client和cluster
spark.log.callerContext
默认值,无
应用信息记录到yarn rs日志 或 hdfs audit log中,长度依赖于hadoop中的配置, hadoop.caller.context.max.size
spark.driver.supervise
默认值,false
如果为true, 当driver失败时会自动进行重启。仅对 standalone 或 mesos的cluster模式有影响。
运行时属性
spark.driver.extraClassPath
默认值,无
其他的类加载路径,在client模式下需要在SparkConf中配置,因为driver启动的时候JVM已经启动了。或者在启动的时候配置 --driver-class-path 属性
spark.driver.extraJavaOptions
默认值,无
driver程序的JVM配置。比如GC配置或者日志配置等。不支持-Xmx这