Spark学习之路——3.Spark应用运行流程和运行模式

Nelson_hehe

已于 2024-05-20 10:54:41 修改

阅读量628

点赞数 1

分类专栏： # Spark 文章标签：运行模式 Spark程序运行流程

于 2019-12-10 17:55:43 首次发布

本文链接：https://blog.csdn.net/hehe_soft_engineer/article/details/103479674

版权

Spark 专栏收录该内容

9 篇文章 4 订阅

订阅专栏

第三节、Spark应用运行流程和运行模式

一、Spark应用运行流程

1.程序的执行流程：

当执行一个应用时，Driver会向集群管理器申请资源，启动Executor，并向Executor发送应用程序代码和文件，然后在Executor上执行任务，运行结束后，执行结果会返回给Driver，或者写到HDFS或者其他数据库中。

2.下面是Spark应用程序详细流程：

①当一个Spark应用程序被提交时，首先要为这个应用程序的执行构建基本的运行环境（资源）。任务控制器(Driver)会创建一个SparkContext对象，由SparkContext和Cluster Manager进行通信、资源申请（申请运行Executor的资源）、任务分配和监控等。SparkContext可以被看作应用程序连接集群的通道。

②Cluster Manager为Executor分配资源，并启动Executor进程，Executor上资源的使用情况将通过心跳的方式反馈到Cluster Manager上。

③SparkContext会根据RDD的依赖关系构建DAG，DAG会被提交到DAG调度器（DAG Scheduler）进行解析，将DAG分解为多个阶段（每个阶段都是一个任务集），并且计算出各个阶段之间的依赖关系，接着把一个个任务集交给任务调度器（Task Scheduler）。

④Executor进程启动后会向SparkContext申请任务，接着任务调度器（Task Scheduler）会将任务发送给Executor执行，同时SparkContext还会把代码发送给Executor。

⑤任务执行的结果会反馈给任务调度器，然后返回给DAG调度器，运行完成后将执行结果会返回给Driver，或者写到HDFS并释放掉资源。

3.Spark运行流程的主要特点

(1)每个应用都有专属的Executor进程，并且该进程在应用执行期间一直存在。Executor进程以多线程的方式运行任务，减少了多线程任务频繁的启动开销，使得任务更加高效可靠。这也意味着Spark Application不能跨应用程序共享数据，除非将数据写入到外部存储系统。

(2)Spark与资源管理器无关，只要能够获取executor进程，并能保持相互通信就可以了。

(3)Executor上有一个BlockManager存储模块，类似于键值存储系统（将内存和磁盘工作作为存储设备），在处理迭代计算的任务时，不需要把中间结果写入HDFS等文件系统中，而是直接存放在这个存储系统里面，后续有需要直接读取，由于在内存中，读取速度非常快，提高了性能。

(4)Task采用了数据本地性和推测执行的优化机制。

二、Spark运行模式（部署方式）

1.Local模式

这种模式下程序在单机执行，常用于测试

后面三种属于集群部署模式

2.Standalone模式

Spark框架自身也有完整的资源调度管理服务，可以独立部署在一个进群里，当采用此种运行模式时，在架构设计上和MapReduce一样，都是一个Master和多个Slave构成，将槽（slot）作为资源分配单位。

3.Spark on Yarn/Mesos模式

程序运行在资源管理器上：Yarn/Mesos上

此种模式存在两种方式：

(1)yarn-client模式：Spark Driver在Client端

yarn-client适合测试环境，因为driver在client端，我们可以在UI清楚的看到程序的执行情况

(2)yarn-cluster模式：Spark Driver(应用程序的“主管”)在Yarn Container

yarn-cluster适合生产环境

参考：《Spark编程基础（Scala版）》

对Spark架构了解后，下一节将会详细地介绍RDD在Spark中起到什么样的作用。

Nelson_hehe

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
Spark学习之路——3.Spark应用运行流程和运行模式

第三节、Spark应用运行流程和运行模式一、Spark应用运行流程1.程序的执行流程：当执行一个应用时，Driver会向集群管理器申请资源，启动Executor，并向Executor发送应用程序代码和文件，然后在Executor上执行任务，运行结束后，执行结果会返回给Driver，或者写到HDFS或者其他数据库中。2.下面是Spark应用程序详细流程：①当一个S...
复制链接

扫一扫

专栏目录