Spark 运行参数信息

NAME 备注解释
spark.app.attempt.id
spark.app.id
spark.app.name
spark.blacklist.application.fetchFailure.enabled 项用于控制是否启用应用程序失败的获取失败(fetch failure)黑名单功能,当Spark从另一个程序中取数时失败,就会将其纳入黑名单,并在一段时间内避免从这个应用程序获取数据
spark.blacklist.application.maxFailedTasksPerExecutor 这个配置选项用于控制每个执行器(executor)上失败的任务的最大数量,当超过这个数量时,执行器将被添加到黑名单中。
spark.blacklist.enabled 执行器黑名单是否启动。
spark.blacklist.stage.maxFailedTasksPerExecutor 这个配置选项用于控制每个阶段(stage)在每个执行器(executor)上失败的任务的最大数量,当超过这个数量时,执行器将被添加到黑名单中。
spark.build.date
spark.build.env
spark.build.gitRevision
spark.driver.extraClassPath
spark.driver.extraJavaOptions
spark.driver.extraLibraryPath
spark.driver.host
spark.driver.maxResultSize 这个配置选项用于限制Driver程序可以使用的最大内存量。
​在Spark中,Driver程序是负责任务调度和协调的组件,它需要足够的内存来执行各种任务操作,例如数据划分、任务调度和结果聚合等。如果Driver程序使用的内存超过了spark.driver.maxResultSize配置的值,Spark会抛出异常。需要注意的是,这个配置选项只限制Driver程序使用的最大内存量,并不限制Executor程序使用的内存量。Executor程序是运行在集群中的工作节点上的进程,负责执行具体的任务。如果你还需要限制Executor程序使用的内存量,可以使用spark.executor.memory或spark.executor.memoryOverhead等配置选项进行配置。
spark.driver.memory spark.driver.memory是Apache Spark的一个配置选项,用于设置Driver程序的内存大小1。
​在Spark程序中,SparkContext、DAGScheduler等都运行在Driver端,对应rdd的Stage切分也是在Driver端运行,如果用户自己写的程序有过多的步骤,切分出过多的Stage,这部分信息消耗的是Driver的内存,因此需要根据任务的实际情况合理分配spark.driver.memory的大小。
spark.driver.port
spark.dynamicAllocation.enabled spark.dynamicAllocation.enabled是Apache Spark的一个配置选项,用于开启动态资源配置。
​根据工作负载来衡量是否应该增加或减少Executor,开启时num-executors参数无效。Spark在作业启动时会自动根据集群资源情况来决定分配的最小Executor个数,默认是0;而最大Executor个数则由spark.dynamicAllocation.maxExecutors参数控制,默认是spark.executor.instances参数的3倍。
​建议在大部分情况下应该设置为true,避免空闲Executor浪费资源。但如果在集群中Executor分配不足,或者存在其他资源配置问题时,也可以考虑关闭该选项。
spark.dynamicAllocation.executorIdleTimeout 用于设置Executor空闲超时时间。
​当Executor空闲时间超过该配置值设定的秒数后,Spark会自动将其销毁,从而节省集群资源。默认情况下,该值是60秒。
​这个配置在集群资源有限,而应用程序运行时间较长,存在Executor长时间空闲的情况下非常有用。如果应用程序运行时间较短,或者集群资源充足,也可以考虑不设置该选项或将其设置得较大。
spark.dynamicAllocation.maxExecutors spark.dynamicAllocation.maxExecutors是Apache Spark的一个配置选项,用于控制动态资源配置中,每个阶段可以启动的最大Executor个数。
​默认情况下,每个阶段可以启动的最大Executor个数是1000。如果Spark UI中观察到task较多,可以调大此参数,保证task能够并发执行完成,缩短作业执行时间。
​值得注意的是,在调整Spark并行度的时候,还有spark.default.parallelism和spark.sql.shuffle.partitions这2个参数。
spark.dynamicAllocation.minExecutors spark.dynamicAllocation.minExecutors是Apache Spark的一个配置选项,用于控制动态资源配置中,每个阶段可以启动的最小Executor个数。
​默认情况下,每个阶段可以启动的最小Executor个数是0,即不启动。当Executor数量不足时,Spark会根据当前集群资源情况自动决定启动Executor的数量,保证资源利用最大化。
​如果Spark UI中观察到task较多,可以调大此参数,保证task能够并发执行完成,缩短作业执行时间。但需要注意的是,如果集群资源有限,调大此参数可能会导致集群压力增大,影响其他应用程序的性能。
spark.eventLog.dir
spark.eventLog.enabled
spark.eventLog.split
spark.executor.cantorEtlIncreaseMemory.enabled
spark.executor.cores spark.executor.cores是Apache Spark的一个配置选项,用于指定每个executor的CPU内核个数。
​如果一个Spark应用程序运行在一个具有多个CPU内核的机器上,则可以通过增加spark.executor.cores的值来提高该应用程序的并发能力。这是因为spark.executor.cores指定了每个executor可以同时执行的task数。默认情况下,spark.executor.cores的值为1,这意味着每个executor只运行一个task。如果将spark.executor.cores设置为2,则每个executor可以同时执行两个task。
​需要注意的是,在设置spark.executor.cores时,应该根据机器的CPU资源和应用的需求进行权衡。如果将spark.executor.cores设置得过高,可能会导致资源浪费和应用程序执行时间延长。
spark.executor.extraClassPath
spark.executor.extraJavaOptions
spark.executor.extraLibraryPath
spark.executor.heartbeat.maxFailures
spark.executor.heartbeatInterval
spark.executor.id
spark.executor.memory spark.executor.memory是Apache Spark的一个配置选项,用于指定每个executor分配的内存大小。
​spark.executor.memory参数影响了Spark在executor上使用的内存量。它的大小决定了executor可以使用的总内存量。在Spark中,executor的内存被划分为几个部分,包括存储内存、执行内存和用户内存等。
​需要注意的是,spark.executor.memory并不是JVM堆内存(Heap Memory),而是Spark为executor分配的内存大小。
spark.executorEnv.JAVA_HOME
spark.executorEnv.project
spark.executorEnv.taskcode
spark.executorEnv.taskexectype
spark.hadoop.dfs.client.improve.small.read.key spark.hadoop.dfs.client.improve.small.read.key 是 Apache Spark 配置文件中的一个参数,用于改善小文件读取的性能。
​在 Spark 中,当读取小文件时,通常会遇到性能问题。这是因为每个小文件的读取都需要建立单独的连接,这会导致大量的开销。为了解决这个问题,Spark 增加了这个配置项
  • 9
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值