30天搞定spark源码系列-scheduler-运行模式篇

最新推荐文章于 2020-07-04 10:19:03 发布

枫叶的落寞

最新推荐文章于 2020-07-04 10:19:03 发布

阅读量329

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/u013220482/article/details/106192280

版权

10 篇文章 1 订阅

订阅专栏

阅读这篇文章，你应该得到面试中有可能会问到的几个问题的答案：

思路

在这里插入图片描述
其实简单使用过spark的童鞋们都应该知道spark的运行模式就是这几种，一些人也能大致说出不同运行模式的差别，这里我们从源码的角度分析一下运行模式的不同会引起什么样的任务调度

spark的local模式是在本地起多个Thread，每个thread相当于一个executor，来模拟spark的并行运行模式，在实际项目中常用的有两种写法：

了解了定义之后，我们自然想知道指定了这个模式以后，它的运行方式是什么样的

可以看到LocalSchedulerBackend继承了两个调度类

对于调度后端来说，只负责调度整个任务的各个阶段，分别为开始阶段、执行阶段和结束阶段，相应的，对于这个接口类只定义了这几个方法：

用于将executor上的数据的更新发送给集群的调度模块

了解了基类以后，接下来进入正题

这里主要看LocalEndpoint这个类，因为这是local模式特有的实现过程，也是local和其他运行模式的最大区别

在这里插入图片描述
主要看这一行的代码：

这里指定本地的driver和hostname:localhost之后，直接调用Executor类去构建executor，这里我们就发现了最大模式之间的最大差别就是构建Executor类的方式。

spark框架为了和第三方resource结合，定义的集群任务调度模块，常见的resource有三种：

这里我不展开说这几个具体的模式，后续会有专门的文章说这块的东西，本来spark也把这块做了一个单独的模块

spark框架自带的集群任务调度模块

关注