算子功能:
减少分区数量,
应用场景:ABC 3个分区分别处理10w条原始数据,但是在处理的筛选的过程中,过滤掉了大部分的数据,此时的ABC3个分区的数据量只有1000条,那么此时还使用原始的3个分区去处理这1000条数据,消耗太多,即可使用coaliesce算子,减少分区的数量
代码如下:
package sparkcore.day01
import org.apache.spark.{SparkConf, SparkContext}
object demo01_coalesc {
def main(args: Array[String]): Unit = {
System.setProperty("hadoop.home.dir", "D:\\spark")
val conf = new SparkConf().setAppName("spakrcore").setMaster("local[*]")
val sc = new SparkContext(conf)
</