Spark运行架构

基本概念:

  • Application:用户写的spark程序
  • Driver Program:运行app的main()函数并创建SparkContext
  • RDD Graph:RDD是Spark的数据结构,可以通过算子进行操作(Transformation和Action)。当RDD遇到Action算子时将之前的所有算子形成有向无环图(DAG),再在spark中转化为job提交到集群执行。一个app可以有多个job。
  • Job:包含多个task组成的并行计算,一个DAG触发的作业,由Action算子触发,在SparkContext中通过runJob方法向Spark提交Job
  • Stage:job的调度单位,每个job会根据RDD的宽依赖关系被切分成很多Stage,每个Stage中包含一组相同的Task,这组task也叫TaskSet
  • Task:被送到某个executor的执行单元。一个分区对应一个Task,Task中RDD中对应Stage中包含的算子,Task被封装好后放入Executor的线程池中执行
  • TaskSet:一组关联的,相互之间没有shuffle依赖关系的任务组成的任务集。

    一个应用程序由一个driver program和多个job构成。一个job由多个stage组成。一个stage由多个没有shuffle关系的task组成。


运行过程:

1、job提交前:
spark应用程序进行各种transformation的计算,最后通过action触发job(延迟执行)。
2、提交job,划分stage:
job提交之后首先通过sparkContext根据RDD的依赖关系构建DAG图,DAG图提交给DAGScheduler进行解析,解析时是以shuffle为边界,反向解析,构建stage,stage之间也有依赖关系。这个过程就是对DAG图进行解析划分stage,并且计算出各个stage之间的依赖关系。
3、任务调度与分发:
将一个个TaskSet提交给底层调度器,在spark中是提交给taskScheduler处理,生成TaskSet manager,最后提交给executor进行计算,executor多线程计算,计算完反馈给TaskSetmanager,再反馈给taskScheduler,然后再反馈回DAGScheduler。全部运行完之后写入数据。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值