spark的血缘说的是两个RDD集之间的关系,或者说是父RDD集向子RDD集演化时的状态
宽依赖指的是父RDD集任意分区中的数据流向不止一个子RDD集分区
窄依赖指的是父RDD集任意分区中的数据流向都一一对应一个子RDD集分区
粗糙的理解就是“算子是否触发洗牌”,如果是那么对于spark来说就一定是宽依赖,否则为窄依赖
spark的血缘说的是两个RDD集之间的关系,或者说是父RDD集向子RDD集演化时的状态
宽依赖指的是父RDD集任意分区中的数据流向不止一个子RDD集分区
窄依赖指的是父RDD集任意分区中的数据流向都一一对应一个子RDD集分区
粗糙的理解就是“算子是否触发洗牌”,如果是那么对于spark来说就一定是宽依赖,否则为窄依赖