Spark WordCount原理 为什么需要划分Stage 数据本地化 移动计算,而不是移动数据 保证一个Stage内不会发生数据移动 根据是否发生了数据移动判断是否划分了阶段 Spark Shuffle过程 在分区之间重新分配数据 父RDD中同一分区中的数据按照算子要求重新进入子RDD的不同分区中 中间结果写入磁盘 由子RDD拉取数据,而不是由父RDD推送 默认情况下,Shuffle不会改变分区数量