大数据——Spark任务执行流程

最新推荐文章于 2024-07-02 09:36:29 发布

kiss火葱花

最新推荐文章于 2024-07-02 09:36:29 发布

阅读量501

点赞数 2

分类专栏：大数据文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_25062299/article/details/95616760

版权

大数据专栏收录该内容

14 篇文章 16 订阅

订阅专栏

Spark任务的执行流程文字详细描述

通过对比和阅读源码，我们大致将Spark任务提交到运行分为以下20步进行描述，具体过程如下：

1.将我们编写的程序打成jar包

2、调用spark-submit脚本提交任务到集群上运行

3、运行Sparksubmit的main方法，在这个方法中通过反射的方式创建我们编写的主类的示例对象，然后调用mian方法，开始执行我们的代码（注意：我们的spark程序中的driver就运行在sparkSubmit进程中）

4、当代码运行到创建SparkContext对象时，那就开始初始化SparkContext对象了

5、在初始化SparkContext对象的时候，会创建两个特别重要的对象，分别是DAGScheduler和TaskScheduler

DAGScheduler的作用：将RDD的依赖切分成一个一个的stage，然后将stage作为taskSet提交给TaskScheduler

6、在构建TaskScheduler的同时，会创建两个非常重要的对象，分别是DriverActor和ClientActor

ClientActor的作用：向master注册用户提交的任务

DriverActor的作用：接受executor的反向注册，将任务提交给executor

7、当DriverActor启动后，会将用户提交的任务和相关参数封装到ApplicationDescription对象中，然后提交给master进行任务的注册

8、当master接受到clientActor提交的任务请求时，会将请求参数进行解析，并封装成Application，然后将其持久化，然后将其加入到任务队列waitingApps中

9、当轮到我们提交的任务运行时，就开始调用schedule()，进行任务资源的调度

10、Master将调度好的资源封装到launchExecutor中发送给指定的worker

11、Worker接受到Master发送来的launchExecutor时，会将其解压并封装到ExecutorRunner中，然后调用这个对象的start()，启动Executor

12、Executor启动后会向DriverActor进行反向注册

13、driverActor会发送注册成功的消息给Executor

14、Executor接受到DriverActor注册成功的消息后会创建一个线程池，用于执行DriverActor发送过来的task任务

15、当属于这个任务的所有的Executor启动并反向注册成功后，就意味着运行这个任务的环境已经准备好了，driver会结束SparkContext对象的初始化，也就意味着new SparkContext这句代码运行完成

16、当初始化sc成功之后，driver端就会继续运行我们编写的代码，然后开始创建初始化的RDD，然后进行一些列转换操作，当遇到一个action算子时，也就意味这触发了一个job

17、Driver会将这个job提交给DAGScheduler

18、DAGScheduler将接受到的job，从最后一个算子向前推导，将DAG依据宽依赖划分成一个一个的stage，然后将stage封装成taskSet，并将taskSet中的task提交给DriverActor

19、DriverActor接受到DAGScheduler发送过来的task，会拿到一个序列化器，对task进行序列化，然后将序列化好的task封装到launchTask中，然后将launchTask发送给指定的Executor

20、Executor接受到了DriverActor发送过来的launchTask时，会拿到一个反序列化器，对launchTask进行反序列化，封装到TaskRunner中，然后从Executor这个线程池中获取一个线程，将反序列化好的任务中的算子作用到RDD对应的分区上

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

kiss火葱花 CSDN认证博客专家 CSDN认证企业博客

码龄10年

55: 原创

29万+: 周排名

165万+: 总排名

10万+: 访问

: 等级

1020: 积分

1164: 粉丝

134: 获赞

6: 评论

654: 收藏

私信

关注

分类专栏

云计算 2篇
Go语言 1篇
nb_iot 1篇
大数据爬虫 1篇
数据挖掘 1篇
Java基础 30篇
大数据 14篇
数据库 7篇

最新评论

Seatunnel-2.3.0源码解析
小白爱吃草: 大佬，为什么我github上下载的源码提示缺少很多的类，是怎么回事呢，打开一堆报错，而且找不到
大数据Hadoop生态圈介绍
s123456lx: 引用「Spark是一种基于内存的分布式并行计算框架，不同于MapReduce的是——Job中间输出结果可以」 Spark能够用基于内存缓存，加速后续迭代计算，这是和,mapreduce的本质区别
大数据存储引擎——Kudu
aidedmniy: Kudu分布式存储引擎下载地址：https://download.csdn.net/download/aidedmniy/73737439
大数据Hadoop生态圈介绍
yanbin01: 各个组件的基本功能介绍的很清楚
大数据Hadoop生态圈介绍
✨ 豌豆儿: 通俗易懂

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。