Spark任务的任务执行流程

最新推荐文章于 2024-07-02 09:36:29 发布

爱写代码的小小程序员

最新推荐文章于 2024-07-02 09:36:29 发布

阅读量2.7k

点赞数 1

文章标签： spark 大数据

本文链接：https://blog.csdn.net/qq_41316200/article/details/123180209

版权

（1）将我们编写的程序打成jar包

（2）调用spark-submit脚本提交任务到机场上运行

（3）运行sparkSubmit的main方法，在这个方法中通过反射的方式创建我们编写的主类的实例对象，然后调用main方法，开始执行我们的代码（注意，我们的spark中的driver就运行在sparkSubmit进程中）。

（4）当代码运行到创建SparkContext对象时，那就开始初始化SparkContext对象了

（5）在初始化SparkContext对象的时候，会创建两个特别重要的对象，分别是：DAGScheduler和TaskScheduler。（DAGScheduler的作用：将RDD的依赖切分成一个一个的stage，然后将stage作为taskSet提交个TaskScheduler）

（6）在构建TaskScheduler的同时，会创建两个非常重要的对象，分别是DriverActor和ClientActor。（clientActor的作用：向master注册用户提交的任务，DriverActor的作用：接受executor的反向注册，将任务提交给executor）

（7）当ClientActor启动后，会将用户提交的任务和相关的参数封装到ApplicationDescription对象中，然后提交给master进行任务的注册。

（8）当master接受到clientActor提交的任务请求时，会将请求参数进行解析，并封装成Application，然后将其持久化，然后将其加入到任务队列waitingApps中。

（9）当轮到我们提交的任务运行时，就开始调用schedule()，进行任务资源的调度。

（10）master将调度好的资源封装到launchExecutor中发送给指定的worker。

（11）worker接受到Master发送来的launchExecutor时，会将其解压并封装到ExecutorRunner中，然后调用这个对象的start()，启动Executor。

（12）Executor启动后会向DriverActor进行反向注册。

（13）DriverActor会发送注册成功的信息给Executor。

（14）Executor接受到DriverActor注册成功的消息后会创建一个线程池，用于执行DriverActor发送过来的task任务。

（15）当属于这个任务的所有的Executor启动并反向注册成功后，就意味着运行这个任务的环境已经准备好了，driver会结束SparkContext对象的初始化，也就意味着new SparkContext这句代码就运行完成。

（16）当初始化SparkContext成功后，driver端就会继续运行我们编写的代码，然后开始创建初始的RDD，然后进行一系列转换操作，当遇到Action算子时，也就意着触发了一个job。

（17）driver会将这个job提交给DAGScheduler。

（18）DAGScheduler将接受到的job，从最后一个算子向前推导，将DAG依据宽依赖划分成一个一个的stage，然后将stage封装成taskSet，并将taskSet中的task提交给DriverActor。

（19）DriverActor接受到DAGScheduler发送过来的task，会拿到一个序列化器，对task进行序列化，然后将序列化好的task封装到launchTask中，然后将launchTask发送给指定Executor。

（20）Executor接受到了DriverActor发送过来的launcheTask时，会拿到一个反序列化器，对launcheTask进行反序列化，封装到TaskRunner中，然后从Executor这个线程池中获取一个线程，将反序列化后的任务中的算子作用在RDD对应的分区上。

关注