coalesce算子不是suffle算子,在划分stage时不会把它分在一个独立的stage中,而它又明确指定了分区数,所以这个stage的分区数就由它确定了,如果目的是为了减少输出文件而合并分区,但是又不影响上一个stage的并行度,可以执行colesce(num,true)
让coalesce发生shuffle,这样它的分区数就不会影响到上一个stage了
但是会多发生一次shuffle
coalesce算子不是suffle算子,在划分stage时不会把它分在一个独立的stage中,而它又明确指定了分区数,所以这个stage的分区数就由它确定了,如果目的是为了减少输出文件而合并分区,但是又不影响上一个stage的并行度,可以执行colesce(num,true)
让coalesce发生shuffle,这样它的分区数就不会影响到上一个stage了
但是会多发生一次shuffle