一、宽窄依赖
1.1 窄依赖
窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用,窄依赖我们形象的比喻为独生子女
1.2 宽依赖
宽依赖指的是多个子RDD的Partition会依赖同一个父RDD的Partition,会引起shuffle,总结:宽依赖我们形象的比喻为超生
二、DAG
DAG 叫做有向无环图,原始的 RDD 通过一系列转换就形成了 DAG,根据 RDD 之间的依赖关系将 DAG 划分为不同的 Stage,对于窄依赖,partition 的处理转换在 Stage 中完成。对于宽依赖,由于有 shuffle 的存在,只能在 parent RDD 处理完成以后,才能开始接下来的计算,因此宽依赖宽划分 Stage 的依据。
三、任务划分
RDD 任务分为:Application、Job、Stage 和 Task。
- Application:初始化一个 SparkContext 就生成一个 Application;
- Job:一个 Action 算子就会生成一个 Job;
- Stage:根据 Application 之间的依赖关系将 Job 划分成不同的 Stage,遇到一个宽依赖则划分一个 Stage;
tage,遇到一个宽依赖则划分一个 Stage; - Task:Stage 是一个 TaskSet,将 Stage 划分的结果发送到不同的 Executor 执行即为一个 Task。