一: TaskSheduler原理解密:
1,DAGScheduler 在提交 TaskSet 给底层调度器TaskSheduler的时候是面向接口TaskSheduler的,这符合面向对象中依赖抽象而不是依赖具体的原则,带来了底层资源调度器的可抽拨性,导致spark可以运行众多的资源调度器模式上,例如:standalone,Yarn,Mesos,Local.Ec2,其他自定义的资源调度器;在standalone的模式下我们聚焦于TaskShedulerImpl;
2,在SparkContext实例化的时候通过createTaskScheduler来创建TaskSchedulerImpl和SparkDeployShedulerBackend
case SPARK_REGEX(sparkUrl) =>
val scheduler = new TaskSchedulerImpl(sc)
val masterUrls = sparkUrl.split(“,”).map(“spark://” + _)
val backend = new SparkDeploySchedulerBackend(scheduler, sc, masterUrls)
scheduler.initialize(backend)
(backend, scheduler)
在TaskShedulerImpl的initialize(初始化)方法中把SparkDeploySchedulerBackend传进来从而赋值为TaskShedulerImpl的backend;在TaskShedulerImpl调用start方法的时候会调用backend.start方法,在start方法中最终注册应用程序
3,TaskSheduler的核心任务是任务提交TaskSet到集群运算并汇报结构
a)为TaskSet创建和维护一个