spark.sql.shuffle.partitions 和 spark.default.parallelism 的区别

spark.default.parallelism只有在处理RDD时才会起作用,对Spark SQL的无效。
spark.sql.shuffle.partitions则是对sparks SQL专用的设置
在这里插入图片描述

方案实现思路:在对RDD执行shuffle算子时,给shuffle算子传入一个参数,比如reduceByKey(1000),该参数就设置了这个shuffle算子执行时shuffle read task的数量。对于Spark SQL中的shuffle类语句,比如group by、join等,需要设置一个参数,即spark.sql.shuffle.partitions,该参数代表了shuffle read task的并行度,该值默认是200,对于很多场景来说都有点过小。

  方案实现原理:增加shuffle read task的数量,可以让原本分配给一个task的多个key分配给多个task,从而让每个task处理比原来更少的数据。举例来说,如果原本有5个key,每个key对应10条数据,这5个key都是分配给一个task的,那么这个task就要处理50条数据。而增加了shuffle read task以后,每个task就分配到一个key,即每个task就处理10条数据,那么自然每个task的执行时间都会变短了。具体原理如下图所示。

  方案优点:实现起来比较简单,可以有效缓解和减轻数据倾斜的影响。

  方案缺点:只是缓解了数据倾斜而已,没有彻底根除问题,根据实践经验来看,其效果有限。

  方案实践经验:该方案通常无法彻底解决数据倾斜,因为如果出现一些极端情况,比如某个key对应的数据量有100万,那么无论你的task数量增加到多少,这个对应着100万数据的key肯定还是会分配到一个task中去处理,因此注定还是会发生数据倾斜的。所以这种方案只能说是在发现数据倾斜时尝试使用的第一种手段,尝试去用嘴简单的方法缓解数据倾斜而已,或者是和其他方案结合起来使用。
spark并行度和shuffle并行度是Spark中两个重要的概念。 spark并行度是指在Spark作业中同时执行的任务数量。它由spark.default.parallelism参数控制,默认值为CPU核心数。可以通过设置该参数来调整并行度,以便更好地利用集群资源。 shuffle并行度是指在进行shuffle操作时,数据被划分为多个分区并在不同的节点上进行处理的能力。它由spark.sql.shuffle.partitions参数控制,默认值为200。可以通过设置该参数来调整shuffle操作的并行度,以便更好地平衡负载和提高性能。 spark.sql.shuffle.partitions和spark.default.parallelism区别在于它们的作用范围和影响对象。spark.default.parallelism是全局参数,影响整个Spark应用程序的并行度。而spark.sql.shuffle.partitions是针对Spark SQL中的shuffle操作的参数,只影响与shuffle相关的操作的并行度。 设置spark.sql.shuffle.partitions和spark.default.parallelism的值可以根据具体的需求进行调整。一般来说,可以根据数据量、集群规模和任务复杂度等因素来决定并行度的设置。较大的并行度可以提高作业的执行速度,但也会增加资源消耗。较小的并行度可以减少资源消耗,但可能导致作业执行时间较长。 总结起来,spark并行度是指整个Spark应用程序的任务并行度,而shuffle并行度是指shuffle操作的并行度。可以通过调整spark.default.parallelismspark.sql.shuffle.partitions的值来优化Spark作业的性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值