Spark_调度流程

最新推荐文章于 2023-07-17 16:29:19 发布

PanYu——BJ

最新推荐文章于 2023-07-17 16:29:19 发布

阅读量171

点赞数

分类专栏： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39839745/article/details/86579411

版权

Spark 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

在这里插入图片描述

1> 将我们编写好的代码打成jar包，提交到集群上运行。

2> 执行spark-submit脚本

3> 调用sparkSubmit这个类的main方法，在main方法中通过反射的方式，
创建我们自己spark作业的主类实例对象。
然后调用main方法，开始执行我们自己写的代码。

4> 开始初始化sparkContext对象，在初始化sparkContext对象时会创建
两个重要的对象(DAGScheduler,TaskScheduler)

5> 将请求参数封装成ApplicationDescription对象，向master进行任务
的注册。

6> master接受到driver的clientActor的注册请求时，会将请求参数进
行封装,封装成app，然后加入到master的任务队列中。

7> 加入到队列后，将app进行持久化

8> 当轮到我们提交任务开始执行时，会调用scheduler()这个方法，
进行任务调度和资源分配。

9> master将分配好的资源封装到launchExecutor中，
发送到指定的worer上。

10> worker接收到master发送过来的LaunchExecutor时，
将其解析并封装到ExecutorRunner中。

11> 调用Executor的start方法，在这个方法中，创建了一个线程，
在这个线程的run方法中启动了一个用于执行任务的容器(进程)

12> executor启动成功后向DriverActor反向注册。

13> 发送反向注册成功的消息

14> 接收到driverActor发送过来的注册成功的消息后，会创建一个线程池，
这个线程池用于执行driverActor发送过来的任务。

15> 当属于这个任务的所有Executor都反向注册成功后，Driver会结束
sparkContext对象的初始化，继续运行我们自己编写的代码。

16> driver端结束sparkContext初始化工作后，开始执行我们编写的代码。
然后开始创建rdd的依赖关系，当遇到一个action算子时，就意
味着触发一个job，然后driver会将这个job提交给DAGScheduler

17> DAGscheduler接收到这个Job时，开始对着job的rdd依赖关系进行划分，
划分成一个一个stage，然后将stage封装成taskSet，
提交给DriverActor。

18> 将taskSet发送给DriverActor

19> DriverActor接收到dagScheduler发送过来的taskSet时，开始对
taskSet中的每个task进行序列化，然后将序列化好的task封装成
LaunchTask，发送给指定的executor

20> executor接收到driverActor发送过来的launcuTask时，会将其解
析并封装到RunnerTask中，然后从线程池中获取一个线程，
进行反序列化。然后执行我们编写的算子。将这些算子作用在其保存
的rdd的分区上。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark_调度流程

1&gt; 将我们编写好的代码打成jar包，提交到集群上运行。2&gt; 执行spark-submit脚本3&gt; 调用sparkSubmit这个类的main方法，在main方法中通过反射的方式，创建我们自己spark作业的主类实例对象。然后调用main方法，开始执行我们自己写的代码。4&gt; 开始初始化sparkContext对象，在初始化sparkContext对象时会创建两...
复制链接

扫一扫

专栏目录

PanYu——BJ CSDN认证博客专家 CSDN认证企业博客

码龄7年

152: 原创

6万+: 周排名

4万+: 总排名

21万+: 访问

: 等级

2524: 积分

104: 粉丝

83: 获赞

20: 评论

173: 收藏

私信

关注

热门文章

分类专栏

Other 5篇
小案例 4篇
Idea 5篇
前端 1篇
Mysql 5篇
Eclipase 4篇
kubernetes 10篇
Linux 9篇
虚拟机 1篇
Oracle 13篇
python 4篇
dist 1篇
Git 5篇
Nexus 1篇
Elasticsearch 1篇
JMeter 2篇
Redis 1篇
Grafana 2篇
Zabbix 2篇
Eureka 2篇
Hadoop 15篇
Windows 4篇
Spark 10篇
Flume 2篇
Java 32篇
Scala 3篇

最新评论

Linux gdisk分区
_渐次: 安装的时候提示命令没有被找到怎么办
maven添加本地包
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接；(3)增加条理清晰的目录。
Kubernetes 集群上的部署JAVA 步骤
Xd聊架构: 膜拜大佬的技术,来我博客指点江山吧！
RocketMQ注册为Windows服务
曲江丨久违: 服务列表能控制mq停止吗
IDEA中pom文件变成了橘色
王二中: 问题解决了，感谢

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。