spark参数设置

本文详细探讨了Spark系统的性能调优,涉及Spark、Hadoop、存储、操作系统和硬件等多个层面。通过性能监控工具,可以有效地调整系统性能。文章列举了各种关键参数,包括driver和executor的内存设置、垃圾回收策略、并行度、序列化选项等,以提升Spark应用的效率。
摘要由CSDN通过智能技术生成

这里写自定义目录标题

 

#spark.driver.extraJavaOptions -XX:PermSize=128M -XX:MaxPermSize=256M

cluster模式:
spark.driver.extraJavaOptions -XX:PermSize=1024M -XX:MaxPermSize=2048M (可被此参数覆盖–driver-java-options)
spark.executor.extraJavaOptions=-XX:+UseConcMarkSweepGC

client模式:
JAVA_OPTS="-XX:MaxPermSize=256m $OUR_JAVA_OPTS"

spark.driver.memory=1g
spark.driver.cores=1
spark.driver.maxResultSize=1g

spark.executor.memory=1g
spark.executor.cores
spark.shuffle.manager=sort
spark.shuffle.file.buffer=64K
spark.reducer.maxSizeInFlight=96m
spark.shuffle.io.maxRetries=10
spark.shuffle.sort.bypassMergeThreshold=200
spark.shuffle.spill.compress=false
spark.shuffle.memoryFraction=0.1
spark.default.parallelism=100
spark.storage.memoryFraction=0.3
spark.yarn.executor.memoryOverhead=1024
spark.yarn.driver.memoryOverhead=1228
spark.yarn.am.memory=2048
spark.yarn.am.memoryOverhead=512
spark.eventLog.enabled=true
spark.cleaner.ttl=500

参数名称 含义
–master MASTER_URL 可以是spark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-client, local
–deploy-mode DEPLOY_MODE Driver程序运行的地方,client或者cluster
–class CLASS_NAME 主类名称,含包名
–name NAME Application名称
–jars JARS Driver依赖的第三方jar包
–py-files PY_FILES 用逗号隔开的放置在Python应用程序PYTHONPATH上的 .zip, .egg, .py文件列表
–files FILES 用逗号隔开的要放置在每个executor工作目录的文件列表
–properties-file FILE 设置应用程序属

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值