spark-submit 相关参数

spark-submit 相关参数


master url:
local: 使用1个worker线程在本地运行Spark程序
local[k]: 使用k个worker线程在本地运行Spark程序
local[*]: 使用所有剩余worker线程在本地运行Spark程序
spark://HOST:PORT: 连接到Spark Standalone集群,以便在该集群上运行Spark应用程序,默认端口7077
mesos://HOST:PORT: 连接到Mesos集群,以便在该集群上运行Spark程序,默认端口5050
yarn client: 以client方式连接到Yarn集群,集群的定位由环境变量HADOOP_CONF_DIR定义,该方式driver在client运行
yarn cluster: 以cluster方式连接到Yarn集群,集群的定位由环境变量HADOOP_CONF_DIR定义,该方式driver在client运行


 --master  MASTER_URL                          spark://host:port, mesos://host:port, yarn, or local.
       --deploy-mode    DEPLOY_MODE          driver运行之处,client运行在本机,cluster运行在集群
       --class CLASS_NAME                              应用程序包的要运行的class
       --name NAME                                             应用程序名称
       --jars JARS                                                  用逗号隔开的driver本地jar包列表以及executor类路径
       --py-files PY_FILES                                   用逗号隔开的放置在Python应用程序PYTHONPATH上的.zip, .egg, .py文件列表
       --files                                                            FILES 用逗号隔开的要放置在每个executor工作目录的文件列表
       --properties-file                                           FILE 设置应用程序属性的文件放置位置,默认是conf/spark-defaults.conf
       --driver-memory MEM                               driver内存大小,默认512M
       --driver-java-options                                  driver的java选项
       --driver-library-path                                    driver的库路径Extra library path entries to pass to the driver
       --driver-class-path                                      driver的类路径,用--jars 添加的jar包会自动包含在类路径里
       --executor-memory MEM                          executor内存大小,默认1G


       Spark standalone with cluster deploy mode only:
       --driver-cores NUM driver使用内核数,默认为1
       --supervise 如果设置了该参数,driver失败是会重启


       Spark standalone and Mesos only:
       --total-executor-cores NUM executor使用的总核数


       YARN-only:
       --executor-cores NUM 每个executor使用的内核数,默认为1
       --queue QUEUE_NAME 提交应用程序给哪个YARN的队列,默认是default队列
       --num-executors NUM 启动的executor数量,默认是2个
       --archives ARCHIVES 被每个executor提取到工作目录的档案列表,用逗号隔开
      关于以上spark-submit的help信息,有几点需要强调一下:
关于--master  --deploy-mode,正常情况下,可以不需要配置--deploy-mode,使用下面的值配置--master就可以了,使用类似 --master spark://host:port --deploy-mode cluster会将driver提


交给cluster,然后就将worker给kill的现象。


如果要使用--properties-file的话,在--properties-file中定义的属性就不必要在spark-sumbit中再定义了,比如在conf/spark-defaults.conf 定义了spark.master,就可以不使用--master了。


关于Spark属性的优先权为:SparkConf方式 > 命令行参数方式 >文件配置方式,具体参见Spark1.0.0属性配置。
和之前的版本不同,Spark1.0.0会将自身的jar包和--jars选项中的jar包自动传给集群。
Spark使用下面几种URI来处理文件的传播:
file:// 使用file://和绝对路径,是由driver的HTTP server来提供文件服务,各个executor从driver上拉回文件。
hdfs:, http:, https:, ftp: executor直接从URL拉回文件
local: executor本地本身存在的文件,不需要拉回;也可以是通过NFS网络共享的文件。
如果需要查看配置选项是从哪里来的,可以用打开--verbose选项来生成更详细的运行信息以做参考。




关于Spark属性的优先权为:SparkConf方式 > 命令行参数方式 > 文件配置方式(conf/spark-defaults.conf )


http://blog.csdn.net/zrc199021/article/details/53999293
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值