如果你使用 coalesce 或 repartition 来修改程序的并行度: val data = sc.newAPIHadoopFile(xxx).coalesce(2).map(xxxx)
或
val data = sc.newAPIHadoopFile(xxx).repartition(2).map(xxxx)
val df = spark.read.json("/user/iteblog/json").repartition(4).map(xxxx)
val df = spark.read.json("/user/iteblog/json").coalesce(4).map(xxxx)
通过 coalesce 或 repartition 函数我们一方面可以减少 Task 数据从未达到减少作业输出文件的数量;同时我们也可以加大并行度从而提高程序的运行效率。
如果想及时了解iteblog_hadoop
我们现在越来越多的人使用 Spark SQL 来编写程序,可是在 coalesce 或 repartition的。值得高兴的是,国内的开发者为 Spark SQL 开发了一个功能,使得我们在 Spark SQL 里面也能用这两个函数,详见 SPARK-24940。这个功能在 COALESCE 或 REPARTITION 关键字暗示来设置程序的并行度。使用如下: package com.iteblog
import java.util.UUID
import org.apache.spark.sql.SparkSession