RDD 宽依赖------ 一个子Rdd 依赖很多父RDD 也就是说这个 子RDD 是由很多父RDD 来组成的,所以, 他不好做优化,一般是需要做shuffle的操作, 这个shuffle的操作,很浪费时间,希望spark也做了优化把。。嗯嗯,
RDD 窄依赖------ 一个子的RDD 只有一个父亲,不是这么说,应该说是一个父亲 RDD 有且只传递给一个子RDD, 对吧,嗯嗯, 这样 比较容易优化,我们举个例子, 假如有四个RDD ------ A ----B-----C-----D 分别依赖, 这个时候,MR模型的话,可能是这样的 1+1 =2+1=3+1=4 但是我们的 spark 是会做pipline优化的额, 直接1+1+1+1 =4 ,这样明显速度提升了很多