Spark内核架构剖析

最新推荐文章于 2024-04-18 04:54:42 发布

Perkinl

最新推荐文章于 2024-04-18 04:54:42 发布

阅读量4.4k

点赞数 1

分类专栏： spark 文章标签： spark DAGScheduler

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lp284558195/article/details/81514301

版权

spark 专栏收录该内容

13 篇文章 3 订阅

订阅专栏

整个Spark工作流程主要分为两部分：

一、创建SparkContext

1.客户端在提交spark应用的机器提交一个Applicaton程序。

2.通过spark-submit方式在该机器上创建一个Driver(jvm进程)。

3.Driver会执行我们自己编写的Application应用程序，并会在当前机器上初始化SparkContext。

4.SparkContext在初始化的时候，做的最重要的事就是构造出DAGScheduler和TaskScheduler(它拥有自己的后台进程)。

5.TaskScheduler实际上是负责通过它的一个后台进程去连接Master，并向Master机器注册当前的Application程序。

6.Master接受到Application注册的请求之后，会使用自己的资源调度算法，在spark集群的Worker上为这个Application启动多个Executor(jvm进程)。

7.Executor启动之后会自己反向注册到TaskScheduler上去。

8.最终，所有的Executor都会反向注册到Driver上之后，Driver结束SparkContext初始化。会继续执行我们的Application程序的代码。

二、执行job和任务调度

1.执行代码，每执行到一个action算子，就会创建一个job。(一个Application中可以包含多个action和transformation)

2.job会提交给DAGScheduler,DAGScheduler会将job划分为多个stage，然后每个stage创建一个TaskSet。（内部存在一个stage划分算法）

3.将TaskSet提交到TaskScheduler。

4.TaskScheduler会将TaskSet里的每一个task提交到Executor上面执行。（内部有task分配算法）

5.Executor每接受到一个task，都会用TaskRunner来封装task，然后从线程池取出一个线程，执行这个task。(其中TaskRunne是将我们代码中要执行的算子以及函数进行拷贝和反序列化后执行Task.)

注意：

Task有两种，ShuffleMapTask和ResultTask,只有最后一个stage是ResultTask。至此，最终整个spark应用程序的执行，就是stage分批次作为taskset提交到executor执行，每个task针对RDD的一个partition，执行我们定义的算子和函数。以此类推，直到所有操作执行完为止！！！

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark内核架构剖析

整个Spark工作流程主要分为两部分：一、创建SparkContext1.客户端在提交spark应用的机器提交一个Applicaton程序。2.通过spark-submit方式在该机器上创建一个Driver(jvm进程)。3.Driver会执行我们自己编写的Application应用程序，并会在当前机器上初始化SparkContext。4.SparkContext在初始化的...
复制链接

扫一扫

专栏目录

Perkinl CSDN认证博客专家 CSDN认证企业博客

码龄7年

128: 原创

2万+: 周排名

180万+: 总排名

87万+: 访问

: 等级

7446: 积分

3347: 粉丝

429: 获赞

110: 评论

1309: 收藏

私信

关注

热门文章

分类专栏

杂七杂八 3篇
Redis 2篇
kafka 5篇
设计模式 4篇
Akka 9篇
Scala 1篇
数据仓库 4篇
数据结构 20篇
java 57篇
hadoop 28篇
Flink 24篇
spark 13篇
Linux 11篇
云服务器配置 3篇

最新评论

优先队列和堆
Adam_Ben: 感觉很像《数据结构与算法经典问题解析》，是这本书吗
锁升级过程（偏向锁/轻量级锁/重量级锁）
不懂Java0: 看周志明老师的jvm三，就实在搞不明白为什么要做一份Markwrod的拷贝，突然想到了以前收藏过一篇当时没看懂的帖子，果然解惑了。谢谢博主
大数据学习视频
普通网友: 大数据工程师2023版（升级版31周） https://download.csdn.net/download/u011712285/87679251
8、Akka任务调度（Dispatcher）
one peice: 请问如果用typed写法，如何设置线程池参数n
2-3查找树
Hi，我们: 链接是指针的意思吗，我想更清晰易懂

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。