spark提交命令详解

最新推荐文章于 2024-08-11 23:51:02 发布

通凡

最新推荐文章于 2024-08-11 23:51:02 发布

阅读量7.8k

点赞数 4

分类专栏： spark

本文链接：https://blog.csdn.net/wangxiaotongfan/article/details/46913409

版权

spark 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

本片文章主要结合官网的提交说明进行，详情请看http://spark.apache.org/docs/latest/submitting-applications.html
./bin/spark-submit \
  --class <main-class>
  --master <master-url> \
  --deploy-mode <deploy-mode> \
  --conf <key>=<value> \
  ... # other options
  <application-jar> \
  [application-arguments]

标准格式

spark通过命令行来提交，其中一些参数可以在程序中进行指定

/home/tong/installDirectory/spark-1.4.0-bin-hadoop2.6/bin/spark-submit //提交命令位置的指定

--class com.cloudera.streamDemo.StreamingErrorCount //这个参数可以进行指定jar包的入口位置,不是物理位置

--master spark://spark1:7077 //指定spark执行的master和端口号，可以在程序中SparkConf中进行指定

target/streamDemo-1.0-SNAPSHOT.jar //编译好jar包的位置

/spark/streamData.txt 1//最后的参数为程序执行过程中需要的文件，这里指定的为hdfs中的文件位置，指定参数

其他的一些参数还有：

--conf可以以key=value的形式进行spark提交过程中的任意参数的指定，例如执行的核数，执行的存储空间等等。

--deploy-mode可以部署你的驱动在工作节点上（cluster）或者是作为外部客户端部署在本地（client）。一种普遍的部署策略是从一台在物理上依赖于你的集群worker节点的网关（入口）机器来提交你的应用。在这种模式下，client模式是更为合适的，在client模式中，提交过程（submit process）被当做集群中的一个client，驱动在submit下被直接发送，应用的输入输出被显在控制台，这种模式对于那种涉及到REPL的应用是比较合适的，例如spark-shell下。

此外，如果你的应用是从一台距离你的工作节点很远的机器上提交的，例如你本地的笔记本，那么使用cluster模式是非常普遍的，这种模式可以降低在驱动（drivers）和具体执行机器的中间的网络延迟，特别注意的是，cluster模式当前对于mesos集群是并不支持的。当前仅仅是yarn对于Python应用支持cluster模式。在standalone的cluster模式下，可以指定--supervise参数来确保如果驱动以非0退出码失败的时候，他可以确保驱动的自动重启。当然还可以在submit下指定其他的参数，都是比较简单的。下面是一些事例。

# Run application locally on 8 cores
./bin/spark-submit \
  --class org.apache.spark.examples.SparkPi \
  --master local[8] \
  /path/to/examples.jar \
  100

# Run on a Spark Standalone cluster in client deploy mode
./bin/spark-submit \
  --class org.apache.spark.examples.SparkPi \
  --master spark://207.184.161.138:7077 \
  --executor-memory 20G \
  --total-executor-cores 100 \
  /path/to/examples.jar \
  1000

# Run on a Spark Standalone cluster in cluster deploy mode with supervise
./bin/spark-submit \
  --class org.apache.spark.examples.SparkPi \
  --master spark://207.184.161.138:7077 \
  --deploy-mode cluster
  --supervise
  --executor-memory 20G \
  --total-executor-cores 100 \
  /path/to/examples.jar \
  1000

# Run on a YARN cluster
export HADOOP_CONF_DIR=XXX
./bin/spark-submit \
  --class org.apache.spark.examples.SparkPi \
  --master yarn-cluster \  # can also be `yarn-client` for client mode
  --executor-memory 20G \
  --num-executors 50 \
  /path/to/examples.jar \
  1000

# Run a Python application on a Spark Standalone cluster
./bin/spark-submit \
  --master spark://207.184.161.138:7077 \
  examples/src/main/python/pi.py \
  1000