如果需要将分区数量减少,需要调用coalesce方法。比如,上层数据很大,你只选取部分数据进行处理,并且要落地。如果不进行充分区,那么接下来有人使用这个数据的时候,分区数量很大,读取的很慢。
如果需要将分区数量增加,需要调用repartition方法。加入需要了数据倾斜,或者并行度不够,就需要将数据的分区数量增加。
从原理上将,repartition方法就是调用coalesce,但是将shuffle设置为true。coalesce默认shuffle是false。
如果需要将分区数量减少,需要调用coalesce方法。比如,上层数据很大,你只选取部分数据进行处理,并且要落地。如果不进行充分区,那么接下来有人使用这个数据的时候,分区数量很大,读取的很慢。
如果需要将分区数量增加,需要调用repartition方法。加入需要了数据倾斜,或者并行度不够,就需要将数据的分区数量增加。
从原理上将,repartition方法就是调用coalesce,但是将shuffle设置为true。coalesce默认shuffle是false。