spark.default.parallelism
是指RDD任务的默认并行度,Spark中所谓的并行度是指RDD中的分区数,即RDD中的Task数。
当初始RDD没有设置分区数(numPartitions或numSlice)时,则分区数采用spark.default.parallelism
的取值。
Spark作业并行度的设置代码如下:
val conf = new SparkConf()
.set("spark.default.parallelism", "500")
对于reduceByKey和join这些分布式shuffle算子操作,其reduce端的stage默认取spark.default.parallelism
这个配置项的值作为分区数,如果没有配置,则以map端的最后一个RDD的分区数作为其分区数,那么分