网上已经有很多博客总结过会产生shuffle的算子,DAGScheduler根据 宽窄依赖/shuffle 来划分stage。那么怎么判定算子会shuffle呢。
org.apache.spark.rdd OrderedRDDFunctions
通过这个类可以看出。
这些个算子会发生shuffle。 共性特征为 new shuffled rdd。
网上已经有很多博客总结过会产生shuffle的算子,DAGScheduler根据 宽窄依赖/shuffle 来划分stage。那么怎么判定算子会shuffle呢。
org.apache.spark.rdd OrderedRDDFunctions
通过这个类可以看出。
这些个算子会发生shuffle。 共性特征为 new shuffled rdd。