跟我一起学Spark之——在集群上运行Spark

最新推荐文章于 2024-04-03 20:17:50 发布

SunWuKong_Hadoop

最新推荐文章于 2024-04-03 20:17:50 发布

阅读量400

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/SunWuKong_Hadoop/article/details/90166994

版权

spark 专栏收录该内容

30 篇文章 1 订阅

订阅专栏

7.2运行时架构

7.2.5小结

在集群上运行Spark应用的详细过程：

1.用户通过spark-submit脚本提交应用。

2.spark-submit脚本启动驱动器程序，调用用户定义的main()方法。

3.驱动器程序与集群管理器通信，申请资源以启动执行器节点。

4.集群管理器为驱动器程序启动执行器节点。

5.驱动器进程执行用户应用中的操作。根据程序中所定义的对RDD的转化操作和行动操作，驱动器节点把工作以任务的形式发送到执行器进程。

6.任务在执行器程序中进行计算并保存结果。

7.如果驱动器程序的main()方法退出，或者调用了SparkContext.stop（）,驱动器程序会终止执行进程，并且通过集群管理器释放资源。

7.3使用spark-submit部署应用

7-1本地提交Python应用

bin/spark-submit my_sctipt.py

7-2提交应用时添加附加参数

bin/spark-submit --master spark://host:7077 --executor-memory 10g my_script.py

7-3spark-submit的一般格式

bin/spark-submit [options] <app jar | python file> [app options]

[options] 是要传给 spark-submit 的标记列表。spark-submit --help 可以列出所有可以接受的标记。

<app jar | python file>表示包含应用入口的JAR包或python脚本。

[app options] 是传给应用的选项。如果程序要处理传给main()方法的参数，它只会得到 [app options] 对应的标记，不会得到spark-submit 的标记。

附：spark-submit 还允许通过 --conf prop=value 标记设置任意的SparkConf配置选项，也可以使用 --properties-File 指定一个包含键值对的属性文件。

#使用独立集群模式提交java应用
./bin/spark-submit
--master spark://hostname:7077
--deploy-mode cluster
--class com.databricks.examples.SparkExample
--name "Example Program"
--jars dep1.jar,dep2.jar,dep3.jar
--total-executor-cores 300
--executor-memory 10g
myApp.jar "options" "to your application" "go here"

#使用yarn客户端模式提交Python应用
export Hadoop_conf_dir=/opt/hadoop/conf
./bin/spark-submit
--master yarn
--py-files somelib-1.2.egg,otherlib-4.4.zip,other-file.py
--deploy-mode client
--name "Example Program"
--queue exampleQueue
--num-executors 40
--executor-memory 10g
my_script.py "options" "xxxxxxxx" "xxxxxx"