Spark三种运行模式

最新推荐文章于 2024-06-17 14:13:40 发布

老菜啦

最新推荐文章于 2024-06-17 14:13:40 发布

阅读量605

点赞数

分类专栏： Spark 文章标签： spark hdfs yarn

本文链接：https://blog.csdn.net/weixin_43497444/article/details/105326529

版权

Spark 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

Local模式

Local模式就是运行在一台计算机上的模式，通常就是用于在本机上练手和测试。它可以通过以下集中方式设置Master。
（1）local: 所有计算都运行在一个线程当中，没有任何并行计算，通常我们在本机执行一些测试代码，或者练手，就用这种模式;
（2）local[K]: 指定使用几个线程来运行计算，比如local[4]就是运行4个Worker线程。通常我们的Cpu有几个Core，就指定几个线程，最大化利用Cpu的计算能力;
（3）local[*]: 这种模式直接帮你按照Cpu最多Cores来设置线程数了。

安装

1）上传并解压spark安装包

[hadoop@hadoop102 sorfware]$ tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/module/
[hadoop@hadoop102 module]$ mv spark-2.1.1-bin-hadoop2.7 spark

2）官方求PI案例

[hadoop@hadoop102 spark]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--executor-memory 1G \
--total-executor-cores 2 \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100

Standalone模式

构建一个由Master+Slave构成的Spark集群，Spark运行在集群中。分为client模式和cluster模式。
下图只显示client模式，client模式同上面Yarn的cluster相似（图解见Yarn模式）。

在这里插入图片描述

安装

1）进入spark安装目录下的conf文件夹

[hadoop@hadoop102 module]$ cd spark/conf/

2）修改配置文件名称

[hadoop@hadoop102 conf]$ mv slaves.template slaves
[hadoop@hadoop102 conf]$ mv spark-env.sh.template spark-env.sh

3）修改slave文件，添加work节点：

[hadoop@hadoop102 conf]$ vim slaves

hadoop102
hadoop103
hadoop104

4）修改spark-env.sh文件，添加如下配置：

[hadoop@hadoop102 conf]$ vim spark-env.sh

SPARK_MASTER_HOST=hadoop102
SPARK_MASTER_PORT=7077

5）分发spark包

[hadoop@hadoop102 module]$ xsync spark/

6）启动

[hadoop@hadoop102 spark]$ sbin/start-all.sh

网页查看：hadoop102:8080
注意：如果遇到 “JAVA_HOME not set” 异常，可以在sbin目录下的spark-config.sh 文件中加入如下配置：
export JAVA_HOME=XXXX
7）官方求PI案例

[hadoop@hadoop102 spark]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100

8）启动spark shell

/opt/module/spark/bin/spark-shell \
--master spark://hadoop102:7077 \
--executor-memory 1g \
--total-executor-cores 2

参数：–master spark://hadoop102:7077指定要连接的集群的master
执行WordCount程序

scala>sc.textFile("input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
res0: Array[(String, Int)] = Array((hadoop,6), (oozie,3), (spark,3), (hive,3), (atguigu,3), (hbase,6))

配置历史服务器

1）修改spark-default.conf.template名称

[hadoop@hadoop102 conf]$ mv spark-defaults.conf.template spark-defaults.conf

2）修改spark-default.conf文件，开启Log：

[hadoop@hadoop102 conf]$ vi spark-defaults.conf
spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://hadoop102:9000/directory

注意：HDFS上的目录需要提前存在。
3）修改spark-env.sh文件，添加如下配置：

[hadoop@hadoop102 conf]$ vi spark-env.sh

export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080
-Dspark.history.retainedApplications=30 
-Dspark.history.fs.logDirectory=hdfs://hadoop102:9000/directory"

4）分发配置文件

[hadoop@hadoop102 conf]$ xsync spark-defaults.conf
[hadoop@hadoop102 conf]$ xsync spark-env.sh

5）启动历史服务

[hadoop@hadoop102 spark]$ sbin/start-history-server.sh

6）再次执行任务

[hadoop@hadoop102 spark]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100

7）查看历史服务

hadoop102:18080

HA配置

1）zookeeper正常安装并启动
2）修改spark-env.sh文件，添加如下配置：

[hadoop@hadoop102 conf]$ vi spark-env.sh

注释掉如下内容：
#SPARK_MASTER_HOST=hadoop102
#SPARK_MASTER_PORT=7077
添加上如下内容：
export SPARK_DAEMON_JAVA_OPTS="
-Dspark.deploy.recoveryMode=ZOOKEEPER 
-Dspark.deploy.zookeeper.url=hadoop102,hadoop103,hadoop104 
-Dspark.deploy.zookeeper.dir=/spark"

3）分发配置文件

[hadoop@hadoop102 conf]$ xsync spark-env.sh

4）在hadoop102上启动全部节点

[hadoop@hadoop102 spark]$ sbin/start-all.sh

5）在hadoop103上单独启动master节点

[hadoop@hadoop103 spark]$ sbin/start-master.sh

6）spark HA集群访问

/opt/module/spark/bin/spark-shell \
--master spark://hadoop102:7077,hadoop103:7077 \
--executor-memory 2g \
--total-executor-cores 2

Yarn模式

Spark客户端直接连接Yarn，不需要额外构建Spark集群。有yarn-client和yarn-cluster两种模式，主要区别在于：Driver程序的运行节点。
yarn-client：Driver程序运行在客户端，适用于交互、调试，希望立即看到app的输出
yarn-cluster：Driver程序运行在由RM（ResourceManager）启动的AM（APPMaster）适用于生产环境。

下图只显示cluster模式，client模式同上面Standalone的client相似（图解见Standalone模式）。
在这里插入图片描述

安装

1）修改hadoop配置文件yarn-site.xml,添加如下内容：

[hadoop@hadoop102 hadoop]$ vi yarn-site.xml
        <!--是否启动一个线程检查每个任务正使用的物理内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
        <property>
                <name>yarn.nodemanager.pmem-check-enabled</name>
                <value>false</value>
        </property>
        <!--是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
        <property>
                <name>yarn.nodemanager.vmem-check-enabled</name>
                <value>false</value>
        </property

2）修改spark-env.sh，添加如下配置：

[hadoop@hadoop102 conf]$ vi spark-env.sh

YARN_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop

3）分发配置文件

[hadoop@hadoop102 conf]$ xsync /opt/module/hadoop-2.7.2/etc/hadoop/yarn-site.xml

4）执行一个程序

[hadoop@hadoop102 spark]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100

注意：在提交任务之前需启动HDFS以及YARN集群。

日志查看

1）修改配置文件spark-defaults.conf
添加如下内容：

spark.yarn.historyServer.address=hadoop102:18080
spark.history.ui.port=18080

2）重启spark历史服务

[hadoop@hadoop102 spark]$ sbin/stop-history-server.sh 
stopping org.apache.spark.deploy.history.HistoryServer
[hadoop@hadoop102 spark]$ sbin/start-history-server.sh 
starting org.apache.spark.deploy.history.HistoryServer, logging to /opt/module/spark/logs/spark-hadoop-org.apache.spark.deploy.history.HistoryServer-1-hadoop102.out

3）提交任务到Yarn执行

[hadoop@hadoop102 spark]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100

4）Web页面查看日志

三种模式对比

模式	Spark安装机器数	需启动的进程	所属者
Loca	l 1	无	Spark
Standalone	3	Master及Worker	Spark
Yarn	1	Yarn及HDFS	Hadoop

老菜啦

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Spark三种运行模式

Local模式Local模式就是运行在一台计算机上的模式，通常就是用于在本机上练手和测试。它可以通过以下集中方式设置Master。（1）local: 所有计算都运行在一个线程当中，没有任何并行计算，通常我们在本机执行一些测试代码，或者练手，就用这种模式;（2）local[K]: 指定使用几个线程来运行计算，比如local[4]就是运行4个Worker线程。通常我们的Cpu有几个Core，就指...
复制链接

扫一扫