Spark-Core之Spark on standAlone 模式的执行过程详解

最新推荐文章于 2023-09-01 10:28:11 发布

晓晓很可爱

最新推荐文章于 2023-09-01 10:28:11 发布

阅读量348

点赞数 2

分类专栏： spark-core 文章标签： spark

本文链接：https://blog.csdn.net/Fresh_man888/article/details/110913584

版权

spark-core 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

1. Spark on standAlone 模式(Client)

1.1 执行流程图

1.2 执行过程详解:

0.当需要提交一个任务到spark集群中时,spark-submit脚本会执行一个叫SparkSubmit的类,然后通过反射调用我们设置的参数 -- class中的main方法,然后在main方法中new SparkContext

1. 将提交的信息发送给Master

2. master根据提交的applicatition的资源信息,先根据内存过滤出符合条件的Worker,然后在进行分配cores

3.master向worker进行通信,将需要的资源信息,applicatition的信息,Driver信息发送给Worker

4.Worker在收到Master发送的消息之后会根据需要的资源,启动Executor

6.worker启动好了之后会向driver进行反向注册

7.在driver端进行准备工作,创建RDD,调用RDD中的transformation算子,最后调用Action,在Action算子里面一定会调用runJob(),在该方法中会将最后一个RDD传入到该方法中

8.根据最后一个RDD从后往前推,根据RDD的依赖关系,划分stage,继续递归进去,最后递归的出口就是RDD在没有父RDD了(DAGSchedule根据依赖关系进行切分)

9.先提交前面的stage 在提交后面的stage,一个stage对应一个taskSet,一个taskSet可以有一到多个task(task的类型可以是ShuffleMapTask,也可以是resultTask),然后将taskset传递给TaskSchedule

10.TaskSchedule将TaskSet中的task进行序列化,然后根据Executor的资源情况,将序列后的task通过网络传输给Executor(其实是将Task用TaskDescription包装了一层)

11. 将序列化后的TaskDescription(里面包装这task发送给Executor)

12. Executor会将接收到TaskDescription 先反序列化,然后在用TaskRunner包装一层然后丢入线程池

13. 将TaskDesc中的task也反序列化,然后通过调用task的run方法,传入TaskContext ,然后根据Task的类型,如果是ShuffleMapTask,就调用run task(这一步骤是在executor中的线程池中完成)

14. 将数据线应用分区器,返回分区ID,然后写入AppendOnlyMap(内存中,默认达到5M溢写磁盘),最后生成两个文件,一个索引文件一个数据文件(这一步骤也是在executor中的线程池中完成)

15. 最后面的MapPartitionsRDD向shuffleRDD要数据,shuffleRDD获取到ShuffleReader,从上游拉取属于自己分区的数据,然后进行全局聚合,将聚合后的结果写入到HDFS中(这一步骤也是在executor中的线程池中完成)

2.知识补充:

什么是RPC通信:

通俗的来说就是不同进程之间方法的调用,不仅仅只是发消息,而是可以在两个进程之间调用方法

晓晓很可爱

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark-Core之Spark on standAlone 模式的执行过程详解

1.Spark on standAlone 模式(Client)1.1 执行流程图1.2 执行过程详解:0.当需要提交一个任务到spark集群中时,spark-submit脚本会执行一个叫SparkSubmit的类,然后通过反射调用我们设置的参数 -- class中的main方法,然后在main方法中new SparkContext1. 将提交的信息发送给Master2. master根据提交的applicatition的资源信息,先根据内存过滤出符合条件的Work...
复制链接

扫一扫