从spark.default.parallelism参数来看Spark并行度、并行计算任务概念

213 篇文章 118 订阅 ¥59.90 ¥99.00

1 并行度概念理解

并行度:并行度= partition= task总数。但是同一时刻能处理的task数量由并行计算任务决定(CPU cores决定)。

并行度(Parallelism)指的是分布式数据集被划分为多少份,从而用于分布式计算。换句话说,并行度的 出发点是数据(从数据的角度看),它明确了数据划分的粒度。并行度越高,数据的粒度越细,数据分片越 多,数据越分散。由此可见,像分区数量、分片数量、Partitions 这些概念都是并行度的 同义词。并行度本质上指的就是总分区数。也就是我们通常看到的spark.default.parallelism 和spark.sql.shuffle.partitions 这两个参数。这两个参数,spark.default.parallelism 是针对RDD设置的,spark.sql.shuffle.partitions 是针对数据框(df,ds)设置的。

并行计算任务(Paralleled Tasks)则不同,它指的是在任一时刻整个集群能够

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值