窄依赖
:
上游的
RDD
的分区的数据
.
被下游的分区完全的继承
,
那么我将这样的依赖关系称为窄依赖关系 窄依赖关系之间
是没有
shuffle
目的
:
支持并行的计算
宽依赖
:
上游的
RDD
的分区数据
,
分发的下游的多个分区所接收
,
中间存在
shuffle
的操作
目的
:
划分
Stage,保证上游RDD分区相同类型的数据被下游同一个分区接受