spark常用参数
概要
本文介绍一些实际工作中常用的一些参数。
官方链接
spark版本:spark3.3.1
https://spark.apache.org/docs/latest/configuration.html
spark常见参数解析
# 单个executor使用的core数量
'--conf spark.executor.cores=4',
# 单个executor使用的内存
'--conf spark.executor.memory=12g',
# 初始executor数量
'--conf spark.dynamicAllocation.initialExecutors=2',
# 开启动态资源分配时最大executor数量,视实际数据量调整
'--conf spark.dynamicAllocation.maxExecutors=100',
# 平台建议设置为core总数量的2~3倍
'--conf spark.default.parallelism=800',
# 如果为 true,则启用自适应查询执行,这会在查询执行过程中根据准确的运行时统计信息重新优化查询计划。
'--conf spark.sql.adaptive.enabled=true',
# 开启AQE后合并相邻shuffle分区数据
'--conf spark.sql.adaptive.coalescePartitions.enabled=true',
'--conf spark.sql.adaptive.coalescePartitions.parallelismFirst=fals