1 并行度概念理解
并行度:并行度= partition= task总数。但是同一时刻能处理的task数量由并行计算任务决定(CPU cores决定)。
并行度(Parallelism)指的是分布式数据集被划分为多少份,从而用于分布式计算。换句话说,并行度的 出发点是数据(从数据的角度看),它明确了数据划分的粒度。并行度越高,数据的粒度越细,数据分片越 多,数据越分散。由此可见,像分区数量、分片数量、Partitions 这些概念都是并行度的 同义词。并行度本质上指的就是总分区数。也就是我们通常看到的spark.default.parallelism 和spark.sql.shuffle.partitions 这两个参数。这两个参数,spark.default.parallelism 是针对RDD设置的,spark.sql.shuffle.partitions 是针对数据框(df,ds)设置的。
并行计算任务(Paralleled Tasks)则不同,它指的是在任一时刻整个集群能够