要减少shuffle的开销,主要有两个思路: 减少shuffle次数,尽量不改变key,把数据处理在local完成; 减少shuffle的数据规模。 先去重,再合并 比如有A、B这样两个规模比较大的RDD,如果各自内部有大量重复,那么二者一合并,再去重: