groupByKey 的 shuffle 的数据量大,容易造成子RDD的分区的内存溢出。如果做 wordcount 词频统计,那么需要继续手动 mapValues 才能得到结果。 reduceByKey 有 2 阶段的聚合,性能快。在父RDD分区内做了预聚合,在子RDD的分区内再次聚合。