Spark运行模式——Spark Standalone模式

最新推荐文章于 2024-08-12 23:51:20 发布

m0_70276855

最新推荐文章于 2024-08-12 23:51:20 发布

阅读量624

点赞数 25

文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/m0_70276855/article/details/139873721

版权

Spark运行模式

Spark主要有三种运行模式：

本地（单机）模式

本地模式通过多线程模拟分布式计算，通常用于对应用程序的简单测试。本地模式在提交应用程序后，将会在本地生成一个名为SparkSubmit的进程，该进程既负责程序的提交，又负责任务的分配、执行和监控等。

Spark Standalone模式

使用Spark自带的资源调度系统，资源调度是Spark自己实现的。

Spark On YARN模式

以YARN作为底层资源调度系统以分布式的方式在集群中运行。

Spark Standalone架构

Spark Standalone的两种提交方式

Spark Standalone模式为经典的Master/Slave架构，资源调度是Spark自己实现的。在Standalone模式中，根据应用程序提交的方式不同，Driver（主控进程）在集群中的位置也有所不同。应用程序的提交方式主要有两种：client和cluster，默认是client。可以在向Spark集群提交应用程序时使用–deploy-mode参数指定提交方式。

client提交方式

当提交方式为client时，运行架构如下图所示：在这里插入图片描述
Spark Standalone模式架构（client提交方式）

集群的主节点称为Master节点，在集群启动时会在主节点启动一个名为Master的守护进程；从节点称为Worker节点，在集群启动时会在各个从节点上启动一个名为Worker的守护进程。
Spark在执行应用程序的过程中会启动Driver和Executor两种JVM进程。

Driver为主控进程，负责执行应用程序的main()方法，创建SparkContext对象（负责与Spark集群进行交互），提交Spark作业，并将作业转化为Task（一个作业由多个Task任务组成），然后在各个Executor进程间对Task进行调度和监控。通常用SparkContext代表Driver。如图所示的架构中，Spark会在客户端启动一个名为SparkSubmit的进程，Driver程序则运行于该进程。

Executor为应用程序运行在Worker节点上的一个进程，由Worker进程启动，负责执行具体的Task，并存储数据在内存或磁盘上。每个应用程序都有各自独立的一个或多个Executor进程。

cluster提交方式

当提交方式为cluster时，运行架构如下图所示:
在这里插入图片描述
Spark Standalone模式架构（cluster提交方式）

Standalone以cluster提交方式提交应用程序后，客户端仍然会产生一个名为SparkSubmit的进程，但是该进程会在应用程序提交给集群之后就立即退出。当应用程序运行时，Master会在集群中选择一个Worker启动一个名为DriverWrapper的子进程，该子进程即为Driver进程。

Spark Standalone模式的搭建

进入Spark安装根目录，进入conf目录，执行以下操作：

(1)：复制spark-env.sh.template文件为spark-env.sh文件

cp spark-env.sh.template spark-env.sh

(2): 修改spark-env.sh文件，添加以下内容：

export JAVA_HOME=/export/servers/jdk1.8.0_161
export SPARK_MASTER_HOST=my2308-host
export SPARK_MASTER_PORT=7077

JAVA_HOME：指定JAVA_HOME的路径。若节点在/etc/profile文件中配置了JAVA_HOME，则该选项可以省略，Spark启动时会自动读取。为了防止出错，建议此处将该选项配置上。
SPARK_MASTER_HOST：指定集群主节点（Master）的主机名。
SPARK_MASTER_PORT：指定Master节点的访问端口，默认为7077。

(3): 启动Spark集群

进入Spark安装目录，执行以下命令，启动Spark集群：