Spark-submit参数说明

 

spark-submit [--options] <app jar | python file> [app arguments] 

参数名称

含义

--master MASTER_URL

可设置模式如:

spark://host:port

mesos://host:port

yarn

yarn-cluster

yarn-client

local

--deploy-mode DEPLOY_MODE

Driver程序运行的地方:client、cluster

--class CLASS_NAME

app主类名称,含包名

--name NAME

app名称

--jars JARS

Driver和Executor依赖的第三方jar包

--properties-file FILE

应用程序属性的文件路径,默认是conf/spark-defaults.conf

--py-files PY_FILES放置在Python应用程序Python path上的.zip,  .egg, .py文件列表,用逗号分隔

--supervise

仅限于Spark  Alone模式,失败后是否重启Driver

  

 

设置Driver

--driver-cores NUM 

Driver程序使用的CPU核数(只限于cluster),默认为1  

--driver-memory MEM

Driver程序使用内存大小

--driver-library-path

Driver程序的库路径

--driver-class-path

Driver程序的类路径

--driver-java-options

 

 

设置Executor

--files FILES

要放置在每个executor工作目录的文件列表,用逗号分隔

--total-executor-cores所有executor的总核数

--num-executors NUM

仅限于Spark on Yarn模式,启动的executor的数量,默认为2

--executor-cores NUM

仅限于Spark on Yarn模式,每个executor使用的CPU核数,默认为1

--executor-memory MEM

每个executor内存大小,默认为1G

--queue QUEUE_NAME

仅限于Spark on Yarn模式,提交应用程序给哪个YARN的队列,默认是default队列

--archives ARCHIVES

仅限于Spark on Yarn模式

 

如:

spark-submit \
--class com.sm.liujinhe.job.Idmapping \
--master yarn \
--deploy-mode client \
--driver-memory 4G \
--num-executors 30 \
--executor-memory 6G \
--executor-cores 3 \
--conf spark.default.parallelism=180 \
/liujinhe/jars/idmapping-1.0-SNAPSHOT.jar

 

spark提交任务常见的两种模式:

  • local[k]:

本地使用k个线程运行saprk程序,适合少量数据在本地调试代码。

  • Spark on yarn模式:

 yarn-client模式:以client模式连接到yarn集群,driver运行在client上。

 yarn-cluster模式:以cluster模式连接到yarn集群,driver运行在worker节点上。

 yarn-cluster适合生产环境,yarn-client适合交互和调试。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

訾零

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值