Spark-submit参数说明

最新推荐文章于 2024-07-10 08:00:00 发布

訾零

最新推荐文章于 2024-07-10 08:00:00 发布

阅读量2.2k

点赞数 1

分类专栏： Spark 文章标签： Spark-submit

本文链接：https://blog.csdn.net/lingeio/article/details/93605935

版权

Spark 专栏收录该内容

41 篇文章 6 订阅

订阅专栏

spark-submit [--options] <app jar | python file> [app arguments]

参数名称	含义
--master MASTER_URL	可设置模式如： spark://host:port mesos://host:port yarn yarn-cluster yarn-client local
--deploy-mode DEPLOY_MODE	Driver程序运行的地方：client、cluster
--class CLASS_NAME	app主类名称，含包名
--name NAME	app名称
--jars JARS	Driver和Executor依赖的第三方jar包
--properties-file FILE	应用程序属性的文件路径，默认是conf/spark-defaults.conf
--py-files PY_FILES	放置在Python应用程序Python path上的.zip, .egg, .py文件列表，用逗号分隔
--supervise	仅限于Spark Alone模式，失败后是否重启Driver

设置Driver
--driver-cores NUM	Driver程序使用的CPU核数(只限于cluster)，默认为1
--driver-memory MEM	Driver程序使用内存大小
--driver-library-path	Driver程序的库路径
--driver-class-path	Driver程序的类路径
--driver-java-options
设置Executor
--files FILES	要放置在每个executor工作目录的文件列表，用逗号分隔
--total-executor-cores	所有executor的总核数
--num-executors NUM	仅限于Spark on Yarn模式，启动的executor的数量，默认为2
--executor-cores NUM	仅限于Spark on Yarn模式，每个executor使用的CPU核数，默认为1
--executor-memory MEM	每个executor内存大小，默认为1G
--queue QUEUE_NAME	仅限于Spark on Yarn模式，提交应用程序给哪个YARN的队列，默认是default队列
--archives ARCHIVES	仅限于Spark on Yarn模式

如：

spark-submit \
--class com.sm.liujinhe.job.Idmapping \
--master yarn \
--deploy-mode client \
--driver-memory 4G \
--num-executors 30 \
--executor-memory 6G \
--executor-cores 3 \
--conf spark.default.parallelism=180 \
/liujinhe/jars/idmapping-1.0-SNAPSHOT.jar

spark提交任务常见的两种模式: