基于源码的SparkContext初始化动作解析

最新推荐文章于 2019-05-30 14:50:19 发布

GreenLanternWine

最新推荐文章于 2019-05-30 14:50:19 发布

阅读量181

点赞数

分类专栏： BigDate 文章标签： Spark 源码 SparkContext TaskScheduler DAGScheduler

本文链接：https://blog.csdn.net/weixin_42295129/article/details/84338070

版权

本文深入探讨SparkContext初始化过程，分析TaskScheduler如何启动与配置，包括TaskScheduleImpl的start方法及StandaloneSchedulerBackend的初始化。同时，介绍了DAGScheduler在依赖划分中的作用，以及SparkUI的相关设置，如端口和保留的stage、job数量。

摘要由CSDN通过智能技术生成

基于源码的SparkContext初始化动作解析

话不多说，首先附上，总体概览图(这个是spark2.10版本）新版本已经没有SparkDesploySchedulerBackend这个类了。
在这里插入图片描述

引入

刚刚接触到Spark的小伙伴，最开始一定会碰到写WordCount程序，或者一些自己的小Demo，每次写的时候都像套模板一样，之前一定要new SparkConf 然后把conf 传给SparkContext对象，那么SparkContext到底为我们做了什么呢？让我们来看看。

TaskScheduler

TaskScheduleImpl到底是个什么东东？官方TaskSchedulerImpl.scala 的源码描述如下：

// 底层通过调用SchedulerBackend，针对不同种类的cluster(yarn,mesos,standalone),来调度task
// 它也可以通过使用LocalSchedulerBackend，并将参数isLocal设定为true,来在本地模式下工作
// 它可以处理通用逻辑，例如确定跨作业的执行顺序，以及推测任务执行等通用逻辑
// 客户端应该首先调用initialize()和start()方法，然后通过runTask()方法提交task sets
Schedules tasks for multiple types of clusters by acting through a SchedulerBackend. 
It can also work with a local setup by using a `LocalSchedulerBackend` and setting isLocal to true. 
It handles common logic, like determining a scheduling order across jobs, waking up to launch speculative tasks, etc. 
Clients should first call initialize() and start(), then submit task sets through the runTasks method.

哦，那就知道了，TaskSchedule就是调度task的，可以设定执行的模式，处理执行顺序，位置等内部逻辑。其中有初始化启动的动作，还有提交task sets的动作。那么在初始化调用start()方法的时候，具体做了什么呢？

TaskScheduleImpl 中的start方法，发现其实底层还是调用的SchedulerBackend的start方法。那么我们找到对应的SchedulerBackend的start方法。

override def start() {
   
  backend.start()
  if (!isLocal && conf.getBoolean("spark.speculation"

最低0.47元/天解锁文章

GreenLanternWine

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录