Spark应用程序在集群中运行时,需要借助于集群管理器,如本地集群管理器、YARN、Mesos,来为其实现资源管理调度服务,实现对集群中各个机器的访问。
独立集群管理器
- 启动Spark集群:略
- 在集群中运行应用程序JAR包
- 主节点参数
- spark://master:7070(master为主节点主机名)
- Linux Shell下命令
- cd /usr/local/spark
- bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 examples/jars/spark-examples_2.12-3.0.1.jar 100 2>&1 | grep “Pi is roughly”
- 主节点参数
- 浏览器中输入地址http://master:8080/可以在独立集群管理Web界面查看应用的运行情况
- 在集群中运行spark-shell
- hadoop fs -put /usr/local/spark/README.md /
- spark-shell --master spark://master:7077
Hadoop YARN 管理器
-
启动Spark集群:略
-
在集群中运行应用程序JAR包
向Hadoop YARN集群管理器提交应用,需要把yarn-cluster(新版本用yarn)作为主节点参数递给spark-submit
- cd /usr/local/spark
- bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn examples/jars/spark-examples_2.12-3.0.1.jar 100 2>&1 | grep “Pi is roughly”
- 运行后,根据在Shell中得到输出的结果地址查看,如下图:
http://master:8088/proxy/application_1608023534325_0003/
-
在集群中运行spark-shell
- spark-shell --master yarn
- spark-shell --master yarn
-
浏览器中输入地址http://master:8088/cluster 在Hadoop Yarn集群管理Web界面查看所有应用的运行情况