自动处理spark数据倾斜

最新推荐文章于 2024-04-14 17:42:53 发布

weixin_42450619

最新推荐文章于 2024-04-14 17:42:53 发布

阅读量399

点赞数

文章标签： spark 大数据

1 解决数据倾斜典型方案

《Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势》一文讲述了数据倾斜的危害，产生原因，以及典型解决方法

保证文件可 Split 从而避免读 HDFS 时数据倾斜
保证 Kafka 各 Partition 数据均衡从而避免读 Kafka 引起的数据倾斜
调整并行度或自定义 Partitioner 从而分散分配给同一 Task 的大量不同 Key
使用 BroadcastJoin 代替 ReduceJoin 消除 Shuffle 从而避免 Shuffle 引起的数据倾斜
对倾斜 Key 使用随机前缀或后缀从而分散大量倾斜 Key，同时将参与 Join 的小表扩容，从而保证 Join 结果的正确性

2 自动解决数据倾斜

目前 Adaptive Execution 可解决 Join 时数据倾斜问题。其思路可理解为将部分倾斜的 Partition (倾斜的判断标准为该 Partition 数据是所有 Partition Shuffle Write 中位数的 N 倍) 进行单独处理，类似于 BroadcastJoin，如下图所示

Spark SQL resolve joinm skewSpark SQL resolve joinm skew
在上图中，左右两边分别是参与 Join 的 Stage 0 与 Stage 1 (实际应该是两个 RDD 进行 Join，但如同上文所述，这里不区分 RDD 与 Stage)，中间是获取 Join 结果的 Stage 2

明显 Partition 0 的数据量较大，这里假设 Partition 0 符合“倾斜”的条件，其它 4 个 Partition 未倾斜

以 Partition 对应的 Task 2 为例，它需获取 Stage 0 的三个 Task 中所有属于 Partition 2 的数据，并使用 MergeSort 排序。同时获取 Stage 1 的两个 Task 中所有属于 Partition 2 的数据并使用 MergeSort 排序。然后对二者进行 SortMergeJoin

对于 Partition 0，可启动多个 Task

在上图中，启动了两个 Task 处理 Partition 0 的数据，分别名为 Task 0-0 与 Task 0-1
Task 0-0 读取 Stage 0 Task 0 中属于 Partition 0 的数据
Task 0-1 读取 Stage 0 Task 1 与 Task 2 中属于 Partition 0 的数据，并进行 MergeSort
Task 0-0 与 Task 0-1 都从 Stage 1 的两个 Task 中所有属于 Partition 0 的数据
Task 0-0 与 Task 0-1 使用 Stage 0 中属于 Partition 0 的部分数据与 Stage 1 中属于 Partition 0 的全量数据进行 Join

通过该方法，原本由一个 Task 处理的 Partition 0 的数据由多个 Task 共同处理，每个 Task 需处理的数据量减少，从而避免了 Partition 0 的倾斜

对于 Partition 0 的处理，有点类似于 BroadcastJoin 的做法。但区别在于，Stage 2 的 Task 0-0 与 Task 0-1 同时获取 Stage 1 中属于 Partition 0 的全量数据，是通过正常的 Shuffle Read 机制实现，而非 BroadcastJoin 中的变量广播实现

3 使用与优化方法

开启与调优该特性的方法如下

将 spark.sql.adaptive.skewedJoin.enabled 设置为 true 即可自动处理 Join 时数据倾斜
spark.sql.adaptive.skewedPartitionMaxSplits 控制处理一个倾斜 Partition 的 Task 个数上限，默认值为 5
spark.sql.adaptive.skewedPartitionRowCountThreshold 设置了一个 Partition 被视为倾斜 Partition 的行数下限，也即行数低于该值的 Partition 不会被当作倾斜 Partition 处理。其默认值为 10L * 1000 * 1000 即一千万
spark.sql.adaptive.skewedPartitionSizeThreshold 设置了一个 Partition 被视为倾斜 Partition 的大小下限，也即大小小于该值的 Partition 不会被视作倾斜 Partition。其默认值为 64 * 1024 * 1024 也即 64MB
spark.sql.adaptive.skewedPartitionFactor 该参数设置了倾斜因子。如果一个 Partition 的大小大于 spark.sql.adaptive.skewedPartitionSizeThreshold 的同时大于各 Partition 大小中位数与该因子的乘积，或者行数大于 spark.sql.adaptive.skewedPartitionRowCountThreshold 的同时大于各 Partition 行数中位数与该因子的乘积，则它会被视为倾斜的 Partition

weixin_42450619

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
自动处理spark数据倾斜

1 解决数据倾斜典型方案《Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势》一文讲述了数据倾斜的危害，产生原因，以及典型解决方法保证文件可 Split 从而避免读 HDFS 时数据倾斜保证 Kafka 各 Partition 数据均衡从而避免读 Kafka 引起的数据倾斜调整并行度或自定义 Partitioner 从而分散分配给同一 Task 的...
复制链接

扫一扫