什么是 shuffle:
父 RDD 的一个分区的数据,要给子 RDD 的多个分区,shuffle 要有网络传输,但是有网络传输的,不一定
就是 shuflle
如果当前rdd与父rdd 分区器都是Hashpartitioner,而且分区数相同,那么就不会产生shuffle,就是如果一个分区已经经历过一次 shuffle或者分区,而且下次的分区数和分区器。也不发生变化就不是shuffle,他认为已经shuffle过了。
什么是 shuffle:
父 RDD 的一个分区的数据,要给子 RDD 的多个分区,shuffle 要有网络传输,但是有网络传输的,不一定
就是 shuflle
如果当前rdd与父rdd 分区器都是Hashpartitioner,而且分区数相同,那么就不会产生shuffle,就是如果一个分区已经经历过一次 shuffle或者分区,而且下次的分区数和分区器。也不发生变化就不是shuffle,他认为已经shuffle过了。