关于Spark默认并行度spark.default.parallelism的理解

Spark的默认并行度(defaultParallelism)是指RDD的分区数,它影响任务的并行执行。在无明确分区设定时,reduceByKey和join等shuffle操作的reduce端按此值设定分区。在local模式下,它取决于CPU核数;在集群模式如Standalone、Yarn,它基于executor的总核数。默认并行度并不一定是最终的RDD分区数,具体还需考虑数据集大小等因素。
摘要由CSDN通过智能技术生成

spark.default.parallelism是指RDD任务的默认并行度,Spark中所谓的并行度是指RDD中的分区数,即RDD中的Task数。

当初始RDD没有设置分区数(numPartitions或numSlice)时,则分区数采用spark.default.parallelism的取值。

Spark作业并行度的设置代码如下:

val conf = new SparkConf()
  .set("spark.default.parallelism", "500")

对于reduceByKey和join这些分布式shuffle算子操作,其reduce端的stage默认取spark.default.parallelism这个配置项的值作为分区数,如果没有配置,则以map端的最后一个RDD的分区数作为其分区数,那么分

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

雷恩Layne

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值