第35课: 打通Spark系统运行内幕机制循环流程
Spark通过DAGScheduler面向整个Job划分出了不同的Stage,划分Stage之后,Stage从后往前划分,执行的时候从前往后执行,每个Stage内部有一系列的任务,Stage里面的任务是并行计算,并行任务的逻辑是完全相同的,但处理的数据不同。DAGScheduler以TaskSet的方式,把我们一个DAG构建的Stage中的所有任务提交给底层的调度器TaskScheduler。TaskScheduler是一个接口,跟具体的任务解耦合,可以运行在不同的调度模式下,如可运行在Standalone模式,也运行在Yarn上。
Spark的基础调度图包括RDD、DAGScheduler、TaskScheduler、Worker等内容,本节讲解TaskScheduler工作原理。
图 8- 3 Spark 运行原理图
D