spark-submit 相关参数

最新推荐文章于 2023-07-01 09:08:02 发布

frogbar

最新推荐文章于 2023-07-01 09:08:02 发布

阅读量538

点赞数

分类专栏： spark

spark 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

spark-submit 相关参数

master url:
local: 使用1个worker线程在本地运行Spark程序
local[k]: 使用k个worker线程在本地运行Spark程序
local[*]: 使用所有剩余worker线程在本地运行Spark程序
spark://HOST:PORT: 连接到Spark Standalone集群,以便在该集群上运行Spark应用程序,默认端口7077
mesos://HOST:PORT: 连接到Mesos集群,以便在该集群上运行Spark程序,默认端口5050
yarn client: 以client方式连接到Yarn集群,集群的定位由环境变量HADOOP_CONF_DIR定义,该方式driver在client运行
yarn cluster: 以cluster方式连接到Yarn集群,集群的定位由环境变量HADOOP_CONF_DIR定义,该方式driver在client运行

--master MASTER_URL spark://host:port, mesos://host:port, yarn, or local.
--deploy-mode DEPLOY_MODE driver运行之处，client运行在本机，cluster运行在集群
--class CLASS_NAME 应用程序包的要运行的class
--name NAME 应用程序名称
--jars JARS 用逗号隔开的driver本地jar包列表以及executor类路径
--py-files PY_FILES 用逗号隔开的放置在Python应用程序PYTHONPATH上的.zip, .egg, .py文件列表
--files FILES 用逗号隔开的要放置在每个executor工作目录的文件列表
--properties-file FILE 设置应用程序属性的文件放置位置，默认是conf/spark-defaults.conf
--driver-memory MEM driver内存大小，默认512M
--driver-java-options driver的java选项
--driver-library-path driver的库路径Extra library path entries to pass to the driver
--driver-class-path driver的类路径，用--jars 添加的jar包会自动包含在类路径里
--executor-memory MEM executor内存大小，默认1G

Spark standalone with cluster deploy mode only:
--driver-cores NUM driver使用内核数，默认为1
--supervise 如果设置了该参数，driver失败是会重启

Spark standalone and Mesos only:
--total-executor-cores NUM executor使用的总核数

YARN-only:
--executor-cores NUM 每个executor使用的内核数，默认为1
--queue QUEUE_NAME 提交应用程序给哪个YARN的队列，默认是default队列
--num-executors NUM 启动的executor数量，默认是2个
--archives ARCHIVES 被每个executor提取到工作目录的档案列表，用逗号隔开
关于以上spark-submit的help信息，有几点需要强调一下：
关于--master --deploy-mode，正常情况下，可以不需要配置--deploy-mode，使用下面的值配置--master就可以了，使用类似 --master spark://host:port --deploy-mode cluster会将driver提

交给cluster，然后就将worker给kill的现象。

如果要使用--properties-file的话，在--properties-file中定义的属性就不必要在spark-sumbit中再定义了，比如在conf/spark-defaults.conf 定义了spark.master，就可以不使用--master了。

关于Spark属性的优先权为：SparkConf方式 > 命令行参数方式 >文件配置方式，具体参见Spark1.0.0属性配置。
和之前的版本不同，Spark1.0.0会将自身的jar包和--jars选项中的jar包自动传给集群。
Spark使用下面几种URI来处理文件的传播：
file:// 使用file://和绝对路径，是由driver的HTTP server来提供文件服务，各个executor从driver上拉回文件。
hdfs:, http:, https:, ftp: executor直接从URL拉回文件
local: executor本地本身存在的文件，不需要拉回；也可以是通过NFS网络共享的文件。
如果需要查看配置选项是从哪里来的，可以用打开--verbose选项来生成更详细的运行信息以做参考。

关于Spark属性的优先权为：SparkConf方式 > 命令行参数方式 > 文件配置方式(conf/spark-defaults.conf )

http://blog.csdn.net/zrc199021/article/details/53999293

frogbar

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark-submit 相关参数

spark-submit 相关参数master url:local: 使用1个worker线程在本地运行Spark程序local[k]: 使用k个worker线程在本地运行Spark程序local[*]: 使用所有剩余worker线程在本地运行Spark程序spark://HOST:PORT: 连接到Spark Standalone集群,以便在该集群上运行Spark应用
复制链接

扫一扫