spark 常用配置

spark使用过程常用配置

  1. 常用配置(可以根据需要进行修改)
spark.driver.memory=driver程序内存大小设置
spark.executor.memory=executor内存大小设置
spark.executor.instances=executor实例数量
spark.executor.cores=executor核心数
spark.driver.maxResultSize=driver从executor获取的最大数据大小
spark.yarn.am.memory=ApplicationMaster内存大小
spark.ui.retainedStages=spark ui上最多保留的stage数量
spark.ui.retainedJobs=spark ui上最多保留的job数量
  1. 高级配置(不建议修改)
spark.master=spark master配置
spark.submit.deployMode=任务提交模式
spark.serializer=序列化器
spark.local.dir=spark本地临时路径
spark.driver.extraJavaOptions=driver端默认的JVM参数
spark.io.compression.codec=shuffle压缩算法配置
spark.kryoserializer.buffer.max=序列化器缓冲区大小
spark.sql.parquet.compression.codec=parquet文件压缩算法
spark.sql.shuffle.partitions=shuffle分区并行度设置
spark.network.timeout=网络超时参数
spark.port.maxRetries=绑定端口时最大重试次数
spark.speculation=是否启用推测执行
spark.speculation.interval=推测执行的间隔
spark.speculation.multiplier=推测执行的并行度
spark.speculation.quantile=推测执行时要完成的任务比例
spark.yarn.scheduler.heartbeat.interval-ms=application master与resource manager的心跳间隔
spark.eventLog.enabled=历史服务器事件日志
spark.sql.thriftServer.incrementalCollect=启用增量集合以在thrift server中执行
spark.shuffle.service.enabled=是否激活外部的shuffle机制
spark.dynamicAllocation.enabled=是否启用动态资源分配
spark.dynamicAllocation.initialExecutors=启用动态资源分配时初始化executor数量
spark.dynamicAllocation.minExecutors=动态资源分配下最小executor数量
spark.dynamicAllocation.maxExecutors=动态资源分配下最大executor数量
spark.dynamicAllocation.executorIdleTimeout=动态资源分配下executor空闲时间
spark.files.overwrite=是否在sc.addFile()添加文件时覆盖已有文件
spark.cleaner.referenceTracking.blocking=清理线程是否应当阻止shuffle任务
spark.sql.hive.metastorePartitionPruning=spark sql的谓语将被下推到hive metastore中,更早的消除不匹配的分区,会影响到违背转换成文件源关系的hive表

更多信息可查看官方配置文档

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值