spark中的宽依赖与窄依赖 区分宽依赖和窄依赖的原因是:如果子RDD分区的数据丢失,需要从父RDD分区进行重新计算,如果是窄依赖就直接计算对应的父RDD分区内的数据就可以了,不用计算所有的父RDD分区内的数据。 由此总结推断:如果子RDD分区内的数据可以通过固定的一个或者多个父RDD分区计算得出结果那就是窄依赖,如果不能那就是宽依赖。