【概述】spark（一）:spark特点、知识范畴、spark架构、任务提交流程、支持哪些运行环境

roman_日积跬步-终至千里

已于 2022-10-07 13:24:49 修改

阅读量2.4k

点赞数

分类专栏： # spark 文章标签： spark 架构大数据

于 2022-09-23 17:05:30 首次发布

本文链接：https://blog.csdn.net/hiliang521/article/details/126961384

版权

spark 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

学习或者复习一门技术之前需要认识这个技术：包括这个技术的特点、架构、它是怎么运作的、它能在哪里运行等；
然后可以学习怎么使用它开放的API对一些业务场景进行开发实现；
其次对于某些特定场景我们可能使用到一些高级特性。

本文先带大家对spark有一个整体概念上的认识和了解。

文章目录

一. spark概述

1. spark的特点

a. spark是继Hadoop的MapReduce之后，最具影响的大数据框架之一。

与Hadoop相比，Spark基于Mapreduce将计算的中间结果内存化并引入DAG（有向无环图）执行引擎。

是对Mapreduce的重大改进，中间数据压缩保存到内存，运算时间会比磁盘低两个数量级。
是对RDD的建模，描述了RDD之间的依赖关系。

b. Spark生态系统是以Spark core（RDD）为核心提供计算框架。

无论是Spark SQL、Spark Streaming、GraphX还是MLlib，都可以使用Spark核心API处理问题，它们的方法几乎是通用的，处理的数据也可以共享，对数据的无缝集成大大提高了灵活性。

Spark最核心的数据结构只有一种：RDD（Resilient Distributed Dataset，弹性分布式数据集），从API上来说，它和普通集合几乎完全相同，但是它却抽象了分布式文件系统中的文件，可以说RDD是一个分布式的集合。

c. 微批的流计算

Spark Streaming将流式计算分解成一系列短小的批处理计算，并且提供高可靠和吞吐量服务。

d. 函数式编程思想

函数式接口
Spark API同样提供了map、reduce、filter等算子（operator）来构建数据处理管道，用户的业务逻辑以高阶函数的形式定义，用户通过高阶函数与算子之间的组合，像搭积木一样，构建了整个作业的执行计划。

惰性求值
Spark的算子分为两类，转换（transform）算子和行动（action）算子，只有行动算子才会真正触发整个作业提交并运行。

容错
spark job由一个个算子结合起来，算子之间的依赖称为血缘。通过保存血缘关系和上游数据集，当下游出现问题时，可利用这两者进行计算恢复。这利用了函数（血缘依赖）在给定参数（上游数据）的情况下一定能得到既定输出（下游数据）的特性。

2. spark的知识范畴

在这里插入图片描述

二. spark架构

1. spark的架构抽象

官网：Cluster Mode Overview

Spark是主从架构，如下图是spark高层次的架构抽象。
在Spark的架构中，Driver主要负责作业调度工作，Executor主要负责执行具体的作业计算任务，ClusterManager主要负责资源管理和调度。
在这里插入图片描述

Spark applications run as independent sets of processes on a cluster, coordinated by the SparkContext object in your main program (called the driver program).

Specifically, to run on a cluster, the SparkContext can connect to several types of cluster managers (either Spark’s own standalone cluster manager, Mesos, YARN or Kubernetes), which allocate resources across applications. Once connected, Spark acquires executors on nodes in the cluster, which are processes that run computations and store data for your application. Next, it sends your application code (defined by JAR or Python files passed to SparkContext) to the executors. Finally, SparkContext sends tasks to the executors to run.

2. spark的成员角色与相关基础概念

Driver:

用于创建运行时环境和管理任务执行，具体的：

运行Application的main函数并创建SparkContext，创建SparkContext的目的是为了准备Spark应用程序的运行环境。SparkContext负责与ClusterManager通信，进行资源申请、任务的分配和监控等，当Executor部分运行完毕后，Driver同时负责将SparkContext关闭。

Executor:

运行Spark的Task。
worker节点上的一个进程，该进程负责运行某些Task，并且负责将数据存到内存或磁盘上，每个Application都有各自独立的一批Executor。

Cluter Manager：

指的是在集群上获取资源的外部服务。目前有四种类型:

Standalone : spark原生的资源管理，由Master负责资源的分配
Apache Mesos:与hadoop MR兼容性良好的一种资源调度框架
Hadoop Yarn: 主要是指Yarn中的ResourceManager
K8s

Task

spark job的工作单元：
被送到某个Executor上的工作单元，多个Task组成一个Stage，而Task的调度和管理等是由TaskScheduler负责

Stage

每个Job会被拆分成多组Task，作为一个TaskSet称为Stage。
Stage的划分和调度由DAGScheduler来负责的，Stage的边界就是发生shuffle的地方。

DAGScheduler

根据Job构建基于Stage的DAG（Directed Acyclic Graph有向无环图)，并提交Stage给TaskScheduler。

TaskScheduler

调度、管理taskSet：
将TaskSET提交给worker运行，每个Executor运行什么Task就是在此处分配的.
TaskScheduler维护所有TaskSet，当Executor向Driver报告心跳时，TaskScheduler会根据资源剩余情况分配相应的Task。另外TaskScheduler还维护着所有Task的运行标签，重试失败的Task。

三. Spark支持的运行模式

1. standalone模式

standalone是Spark实现的资源调度框架，由客户端、Master节点和多个Worker节点组成。其中SparkContext既可以运行在Master节点上，也可以运行在客户端。

在这里插入图片描述

任务提交流程：
在这里插入图片描述
大概的流程是：

Client提交任务，启动SparkContext并向Master注册job，Master返回资源列表给client，并通知Worker创建Executor，Executor创建完毕之后反向注册给Master和Driver，Driver发送任务给Executor，Executor开始执行任务
Executor（CoarseGrainedExecutorBackend）把任务的执行状态发送给SparkContext，如果有taskSet执行完毕SparkContext会继续发送其他任务集；
当job运行完之后，SparkContext进行资源回收。

上面的描述简化了一些角色的活动过程，接下来继续查看：
创建sparkContext的过程包括：

初始化DAGScheduler 和 TaskScheduler调度器，SparkDeploySchedulerBackend，以及在其内部启动DriverEndpoint 和 ClientEndpoint。
其中：

ClientEndpoint：用于向Master注册应用程序
DriverEndpoint：用于发送任务给work中的executor
DAGScheduler：（根据宽依赖）将job划分成多个Stage，每个Stage创建一个TaskSet，并将TaskSet提交给TaskScheduler
TaskScheduler：用于接收TaskSet，并发送给Executor。如果某个任务失败，任务调度器负责重新分配该任务的计算。

Executor的创建和执行：

Master返回资源列表给client端后通知Worker中的WorkerEndpoint创建CoarseGrainedExecutorBackend进程。
该进程会创建执行容器Executor，在Executor运行过程中 CoarseGrainedExecutorBackend（粗粒度执行后端）汇报执行情况给SparkContext。

2. spark on yarn

在这里插入图片描述
大致流程：

客户端提交应用到RM，RM找一个节点创建ApplicationMaster；接着AM向RM申请资源，RM返回资源列表，并选取nodemanager在其Container中创建Spark执行器对象Executor。
Executor创建好后，通知AM可以将任务发送过来，AM分解任务并发送给Executor，开始执行任务。
Executor向AM汇报任务的执行情况，当任务执行结束之后，AM申请注销资源。

roman_日积跬步-终至千里

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
【概述】spark（一）:spark特点、知识范畴、spark架构、任务提交流程、支持哪些运行环境

a. spark是继Hadoop的MapReduce之后，最具影响的大数据框架之一。与Hadoop相比，Spark基于Mapreduce将计算的中间结果内存化并引入DAG（有向无环图）执行引擎。是对Mapreduce的重大改进，中间数据压缩保存到内存，运算时间会比磁盘低两个数量级。是对RDD的建模，描述了RDD之间的依赖关系。b. Spark生态系统是以Spark core（RDD）为核心提供计算框架。
复制链接

扫一扫