spark 总体架构

画画的老顽童

已于 2023-11-06 10:22:47 修改

阅读量179

点赞数

分类专栏： spark 文章标签：大数据 1024程序员节 flink

于 2021-03-04 08:48:45 首次发布

本文链接：https://blog.csdn.net/m0_46449152/article/details/114356977

版权

spark 专栏收录该内容

15 篇文章 1 订阅

订阅专栏

spark 架构

源码参考 https://blog.csdn.net/weixin_37850264/category_10688649.html

1、执行流程
Spark-submit 提交application，
driver先构造sparkconf，再构造sparkcontext，
sparkcontext构造DAGScheuler和TaskScheduler，
–TaskScheduler通过他的后台进程（ClientActor）连接master，向master注册application
–Master接收到application的注册请求后，使用自己的资源调度算法，在spark集群的worker上为这个application启动多个–executor
–Executor启动之后会自己反向注册到TaskScheduler (DriverActor)
–所有executor都反向注册到driver上之后，driver结束sparkcontext初始化，后执行代码
每执行到一个action就会创建一个job，提交到DagScheduler，
DagScheduler会将job划分为多个stage，然后每个stage创建一个taskset
TaskScheduler会把taskset的每个task提交到executor上执行
Executor每接收到一个task都会用taskrunner来封装task，然后从线程池中取出一个线程来执行（taskrunner将我们编写的代码，也就是执行的算子以及函数，拷贝，反序列化，然后执行task）
Task有两种，ShuffleMapTask和ResultTask，只有最后一个stage是ResultTask，之前的stage都是ShuffleMapTask
整个spark应用程序的执行，就是stage分批次作为taskset提交到executor执行，每个task针对RDD的一个partition，执行我们定义的算子和函数，以此类推，直到所有操作执行完为止

2、spark yarn提交
yarn-cluster：
Spark-submit 发送请求到resourcemanager，请求启动applicationMaster
Resoucemanager分配container在某个nodemanager上启动applicationMaster
applicationMaster相当于driver
AM找RM，请求container，启动executor
AM连接其他NM，来启动executor，（NM相当于worker）
Executor启动后向AM反向注册
yarn-client：
Driver在本地启动

画画的老顽童

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
3
评论
spark 总体架构

spark 架构1、执行流程Spark-submit 提交application，driver先构造sparkconf，再构造sparkcontext，sparkcontext构造DAGScheuler和TaskScheduler，TaskScheduler通过他的后台进程连接master，向master注册applicationMaster接收到application的注册请求后，使用自己的资源调度算法，在spark集群的worker上为这个application启动多个executorEx
复制链接

扫一扫