RDD之间是有依赖关系的,这种依赖关系称之为Lineage(血统) 依赖也分为窄依赖和宽依赖 窄依赖:父RDD的一个分区最多被子的一个分区使用 宽依赖:父RDD的一个分区被子的多个分区使用 宽依赖一定会有shuffle,效率就会变低