spark 常用配置

最新推荐文章于 2025-03-06 17:18:51 发布

男神阿甘

最新推荐文章于 2025-03-06 17:18:51 发布

阅读量873

点赞数

分类专栏： spark 文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/qq_32167817/article/details/128851600

版权

spark 专栏收录该内容

1 篇文章

订阅专栏

spark使用过程常用配置

常用配置（可以根据需要进行修改）

spark.driver.memory=driver程序内存大小设置
spark.executor.memory=executor内存大小设置
spark.executor.instances=executor实例数量
spark.executor.cores=executor核心数
spark.driver.maxResultSize=driver从executor获取的最大数据大小
spark.yarn.am.memory=ApplicationMaster内存大小
spark.ui.retainedStages=spark ui上最多保留的stage数量
spark.ui.retainedJobs=spark ui上最多保留的job数量

高级配置（不建议修改）

spark.master=spark master配置
spark.submit.deployMode=任务提交模式
spark.serializer=序列化器
spark.local.dir=spark本地临时路径
spark.driver.extraJavaOptions=driver端默认的JVM参数
spark.io.compression.codec=shuffle压缩算法配置
spark.kryoserializer.buffer.max=序列化器缓冲区大小
spark.sql.parquet.compression.codec=parquet文件压缩算法
spark.sql.shuffle.partitions=shuffle分区并行度设置
spark.network.timeout=网络超时参数
spark.port.maxRetries=绑定端口时最大重试次数
spark.speculation=是否启用推测执行
spark.speculation.interval=推测执行的间隔
spark.speculation.multiplier=推测执行的并行度
spark.speculation.quantile=推测执行时要完成的任务比例
spark.yarn.scheduler.heartbeat.interval-ms=application master与resource manager的心跳间隔
spark.eventLog.enabled=历史服务器事件日志
spark.sql.thriftServer.incrementalCollect=启用增量集合以在thrift server中执行
spark.shuffle.service.enabled=是否激活外部的shuffle机制
spark.dynamicAllocation.enabled=是否启用动态资源分配
spark.dynamicAllocation.initialExecutors=启用动态资源分配时初始化executor数量
spark.dynamicAllocation.minExecutors=动态资源分配下最小executor数量
spark.dynamicAllocation.maxExecutors=动态资源分配下最大executor数量
spark.dynamicAllocation.executorIdleTimeout=动态资源分配下executor空闲时间
spark.files.overwrite=是否在sc.addFile()添加文件时覆盖已有文件
spark.cleaner.referenceTracking.blocking=清理线程是否应当阻止shuffle任务
spark.sql.hive.metastorePartitionPruning=spark sql的谓语将被下推到hive metastore中，更早的消除不匹配的分区，会影响到违背转换成文件源关系的hive表

更多信息可查看官方配置文档