Spark 从 0 到 1 学习(2) —— Apache Spark 运行模式与原理

最新推荐文章于 2024-07-25 18:09:56 发布

dwjf321

最新推荐文章于 2024-07-25 18:09:56 发布

阅读量589

点赞数

分类专栏：大数据 spark 文章标签： spark

本文链接：https://blog.csdn.net/dwjf321/article/details/109047803

版权

大数据同时被 2 个专栏收录

65 篇文章 2 订阅

订阅专栏

spark

16 篇文章 0 订阅

订阅专栏

文章目录

1. Standalone 模式两种提交任务方式

1.1 Standalone-client 提交任务方式

提交命令

$./spark-submit --master spark://masterNode:7077 --class 主类 jar路径 100

或者

$./spark-submit --master spark://masterNode:7077 --deploy-mode client --class 主类 jar路径 100

执行原理图解

在这里插入图片描述

执行流程
1. client 模式提交任务后，会在客户端启动Driver进程。
2. Driver会向Master申请启动Application 启动的资源。
3. 资源申请成功，Driver端将task发送到workder端执行。
4. worker 将 task 执行结果返回Driver端。
总结

client 模式适用于测试调试程序。Driver 进程是在客户端启动的，这里的客户端就是指提交应用程序的当前节点。在Driver端可以看到task 执行的情况。生产环境不能使用 client 模式。因为：假设要提交 100 个 application 到集群运行。Driver每次都会在client 端启动，那么就会导致客户端 100 次网卡流量暴增的问题。

1.2 Standalone-cluster 提交任务方式

提交命令

$./spark-submit --master spark://masterNode:7077 --deploy-mode cluster --class 主类 jar包 100

执行原理图解

在这里插入图片描述

执行流程
1. cluster 模式提交应用程序后，会向Master请求启动Driver。
2. Master 接收请求，随机在集群一台节点启动Driver进程。
3. Driver 启动后为当前的应用程序申请资源。
4. Driver端发送task到worker节点上执行。
5. worker将执行情况和执行结果返回给Driver端。
总结

Driver进程是在集群中某一台Worker上启动的，在客户端是无法查看task的执行情况的。假设要提交100个application到集群运行，每次Driver会随机在集群中某一台Worker上启动，那么这100 词网卡流量暴增的问题就散布到集群上。

1.3 总结

Standalone 两种方式提交任务，Driver与集群的通信包括：

Driver 负责应用程序资源的申请
任务的分发
结果的回收
监控task 执行情况

2. Yarn 模式两种提交任务方式

2.1 yarn-client 提交任务方式

提交命令

./spark-submit --master yarn --class 类名 jar包路径 100

或

./spark-submit --master yarn-client --class 类名 jar包路径 100

或

./spark-submit --master yarn --deploy-mode client --class 类名 jar包路径 100

执行原理图解

在这里插入图片描述

执行流程
1. 客户端提交一个Application，在客户端启动一个Driver进程。
2. 应用程序启动后会向RS(ResourceManager)发送请求，启动AM(ApplicationMaster)的资源。
3. RS收到请求，随机选择一台NM(NodeManager)启动AM。这里的NM相当于Standalone中的Worker节点。
4. AM启动后，会向RS请求一批container资源，用于启动Executor。
5. RS会找到一批NM返回给AM，用于启动Executor。
6. AM会向NM发送命令启动Executor。
7. Executor启动后，会反向注册给Driver，Driver发送task到Executor。Executor将执行情况和结果返回给Driver端。
总结

Yarn-client 模式统一适用于测试，因为Driver运行在本地。Driver会与yarn集群中的Executor进行大量的通信，会造成客户机网卡流量的大量增加。

ApplicationMaster的作用：
1. 为当前的Application申请资源。
2. 给NodeManager发送消息启动Executor。
  
  注意：ApplicationMaster 有发起Executor和申请资源的功能，并没有作业调度的功能。

2.2 yarn-cluster 提交任务方式

提交命令

./spark-submit --master yarn --deploy-mode cluster --class 主类 jar包路径 100

或

./spark-submit --master yarn-cluster --class 主类 jar包路径 100

执行原理图解
执行流程
1. 客户机提交Application应用程序，发送请求到RS(ResourceManager)，启动AM(ApplicationMaster)。
2. RS 收到请求后随机在一台NM(NodeManager)上启动AM(相当于Driver端)。
3. AM启动后，发送请求到RS，请求获取一批container用于启动Executor。
4. RS返回一批NM节点给AM。
5. AM连接到NM，发送请求到NM，启动Executor。
6. Executor反向注册到AM所在的节点的Driver。Driver发送task到Executor。
总结

Yarn-Cluster 主要用于生产环境中，因为Driver运行在Yarn集群中某一台NodeManager。每次提交任务的Driver所在的机器都是随机的，不会产生某一台机器网卡流量激增的现象。缺点是任务提交后不能看到日志，只能通过yarn查看日志。

ApplicationMaster的作用：
1. 为当前的Application申请资源。
2. 给NodeManager发送消息启动Excutor。
3. 任务调度。
停止集群任务命令：yarn application -kill applicationId

3. Spark 术语解释

Master(standalone)：资源管理的主节点(进程)
Cluster Manager：在集群上获取资源的外部服务(例如standalone、Mesos、Yarn)
Worker Node(standalone)：资源管理的从节点(进程)或者说管理本机资源的进程。
Application：基于Spark的用户程序，包含driver程序和运行在集群上的Executor程序。
Driver Program：用来连接工作进程(Worker)的进程。
Executor：在一个Worker进程所管理的节点上为某Application启动的一个进程，该进程负责运行任务，并且负责将数据存在内存或磁盘上。每个应用都有各自独立的executors。
Task：被送到某个Executor上的工作单元。
Job：包含很多任务的并行计算，可以看做和Action对应。
Stage：一个Job会被拆分很多组任务，每个任务被称为Stage(就像MapReduce分 Map Task和Reduce Task一样)

4. 窄依赖和宽依赖

RDD之间有一系列的依赖关系，依赖关系又分为窄依赖和宽依赖。

窄依赖

父RDD 和子RDD partition之间的关系是一对一的。或者父RDD 一个partition只对应一个子RDD的partition情况下的的父RDD和子RDD。partition关系是多对一的。不会有shuffle的产生。
宽依赖

父RDD和子RDD partition之间的关系是一对多。会有shuffle的产生。
宽窄依赖图解

在这里插入图片描述

5. Stage

Spark任务会根据RDD之间的依赖关系，形成一个DAG有向无环图。DAG会提交给DAGScheduler，DAGScheduler会把DAG划分相互依赖的多个stage，划分的依据就是RDD之间的宽窄依赖。遇到宽依赖就划分stage，每个stage包含一个或多个task任务。然后将这些task以taskSet的形式提交给TaskScheduler运行。

stage是由一组并行的task组成。

5.1 Stage切割规则

切割规则：从后往前，遇到宽依赖就切割stage。

在这里插入图片描述

5.2 Stage计算模式

pipeline 管道计算模式，pipeline只是一种计算思想、模式。

在这里插入图片描述

数据一直在管道里面，什么时候数据会落地？

对RDD进行持久化。
shuffle writer的时候。

Stage的task并行度是由stage的最后一个RDD的分区数来决定的。

如何改变RDD的分区数

例如：reduceByKey("key",4)， groupByKey(4)

5.3 验证pipeline 计算模式

val conf = new SparkConf()
conf.setMaster("local").setAppName("pipeline")
val sc = new SparkContext(conf)
val rdd1 = sc.parallelize(Array(1,2,3,4))
val rdd2 = rdd1.map {x => {
    println("map======>"+x)
    x
}}

val rdd3 = rdd2.filter { x=> {
    println("filter=====>"+x)
    true
}}
rdd3.collect()
sc.stop()

6. Spark 资源调度和任务调度

在这里插入图片描述

6.1 图解Spark资源调度和任务调度的流程

在这里插入图片描述

6.2 Spark 资源调度和任务调度的流程

启动集群后，Worker节点会向Master节点汇报资源情况，Master掌握了集群资源情况。
当Spark提交一个Application 后，根据RDD之间的依赖关系，将Application形成一个DAG有向无环图。
任务提交后，Spark会在Driver端创建两个对象：DAGScheduler 和TaskScheduler。
DAGScheduler是任务调度的最高层调度器，是一个对象。
DAGScheduler的主要作用就是将DAG根据RDD之间的宽窄依赖关系划分一个个的Stage，然后将这些Stage以TaskSet的形式提交给TaskScheduler(TaskScheduler是任务调度的低层调度器，这里TaskSet其实就是一个集合，里面封装的就是一个个的task任务，也就是Stage中的并行度task任务)。
TaskScheduler会遍历TaskSet集合，拿到每个task后会将task发送到计算节点Executor中去执行(其实就是发送到Executor中的线程池ThreadPool去执行)。
Task在Executor线程池中的运行情况会向TaskScheduler反馈。当Task执行失败时，则由TaskScheduler负责重试，将Task重新发送给Executor去执行，默认重试3次。
如果重试了3次依然失败，那么这个Task所在的Stage就失败了。Stage失败了则由DAGScheduler来复制重试，重新发送TaskSet到TaskScheduler。Stage默认重试5次。如果4次以后依然失败，那么这个job就失败了。job失败了，Application就失败了。

TaskScheduler不仅能重试失败的task，还会重试 straggling(落后、缓慢)task(也就是执行速度比其他task慢太多的task)。如果有运行缓慢的task，那么TaskScheduler会启动一个新的task来与这个缓慢的task执行相同的处理逻辑。两个task哪个先执行完，就以哪个task的执行结果为准。这就是Spark的推测执行机制。在Spark中推测执行默认是关闭的。可以通过spark.speculation属性来配置。

注意：

对于ETL 类型要入数据库的业务要关闭推测执行机制，这样就不会有重复的数据入库。
如果遇到数据倾斜的情况，开启推测机制则有可能导致一直会有task重新启动的处理相同的逻辑，任务可能一直处于处理不完的状态。

6.3 粗粒度资源申请和细粒度资源申请

粗粒度资源申请(Spark)

在Application执行之前，将所有的资源申请申请完毕，当资源申请成功后，才会进行任务的调度，当所有task执行完后，才会释放着部分资源。

优点：在Application执行之前，所有的资源都申请完毕。每个task直接使用资源就可以了。不需要task在执行前自己去申请资源。task启动就快了，task执行也就快了，Application执行就快了。

缺点：知道最后一个task执行完成才会释放资源，集群的资源无法充分利用。
细粒度资源申请(MapReduce)

Application执行之前不需要先去申请资源，而是直接执行。让job中的每个task在执行前自己去申请资源，task执行完成就释放资源。

优点：集群的资源可以充分利用。

缺点：task自己去申请资源，task启动就变慢。Application的运行就相应的变慢了。