深入分析数据倾斜出现的原因与优化

数据建筑师

已于 2024-01-10 22:09:45 修改

阅读量1.5k

点赞数 23

分类专栏： Spark 文章标签：大数据 spark

于 2023-11-26 21:37:16 首次发布

本文链接：https://blog.csdn.net/2301_77818583/article/details/134633712

版权

Spark 专栏收录该内容

11 篇文章 14 订阅

订阅专栏

解决方案一：将reduce join转为map join

解决方案二：过滤少数导致倾斜的key

解决方案三：两阶段聚合（局部聚合+全局聚合）

解决方案四：使用随机前缀和扩容RDD进行join

数据倾斜发生时的现象

绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余两三个task却要一两个小时。这种情况很常见。
原本能够正常执行的Spark作业，某天突然报出OOM（内存溢出）异常，观察异常栈，是我们写的业务代码造成的。这种情况比较少见。

数据倾斜发生的场景

输入倾斜
shuffle倾斜（99%的场景）
膨胀倾斜

shuffle倾斜

一、数据倾斜发生的原理

数据倾斜的原理很简单：在进行shuffle的时候，必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理，比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话，就会发生数据倾斜。比如大部分key对应10条数据，但是个别key却对应了100万条数据，那么大部分task可能就只会分配到10条数据，然后1秒钟就运行完了；但是个别task可能分配到了100万数据，要运行一两个小时。因此，整个Spark作业的运行进度是由运行时间最长的那个task决定的。

因此出现数据倾斜的时候，Spark作业看起来会运行得非常缓慢，甚至可能因为某个task处理的数据量过大导致内存溢出。

下图就是一个很清晰的例子：hello这个key，在三个节点上对应了总共7条数据，这些数据都会被拉取到同一个task中进行处理；而world和you这两个key分别才对应1条数据，所以另外两个task只要分别处理1条数据即可。此时第一个task的运行时间可能是另外两个task的7倍，而整个stage的运行速度也由运行最慢的那个task所决定。

二、数据倾斜的解决方案

解决方案一：将reduce join转为map join

方案适用场景：在对RDD使用join类操作，或者是在Spark SQL中使用join语句时，而且join操作中的一个RDD或表的数据量比较小（比如100M以内），比较适用此方案。

方案实现思路：不使用join算子进行连接操作，而使用Broadcast变量与map类算子实现join操作，进而完全规避掉shuffle类的操作，彻底避免数据倾斜的发生和出现。将较小RDD中的数据直接通过collect算子拉取到Driver端的内存中来，然后对其创建一个Broadcast变量；接着对另外一个RDD执行map类算子，在算子函数内，从Broadcast变量中获取较小RDD的全量数据，与当前RDD的每一条数据按照连接key进行比对，如果连接key相同的话，那么就将两个RDD的数据用你需要的方式连接起来。

方案实现原理：普通的join是会走shuffle过程的，而一旦shuffle，就相当于会将相同key的数据拉取到一个shuffle read task中再进行join，此时就是reduce join。但是如果一个RDD是比较小的，则可以采用广播小RDD全量数据+map算子来实现与join同样的效果，也就是map join，此时就不会发生shuffle操作，也就不会发生数据倾斜。具体原理如下图所示。

方案优点：对join操作导致的数据倾斜，效果非常好，因为根本就不会发生shuffle，也就根本不会发生数据倾斜。

方案缺点：适用场景较少，因为这个方案只适用于一个大表和一个小表的情况。毕竟我们需要将小表进行广播，此时会比较消耗内存资源，driver和每个Executor内存中都会驻留一份小RDD的全量数据。如果我们广播出去的RDD数据比较大，比如10G以上，那么就可能发生内存溢出了。因此并不适合两个都是大表的情况。

解决方案二：过滤少数导致倾斜的key

方案适用场景：如果发现导致倾斜的key就少数几个，而且对计算本身的影响并不大的话，那么很适合使用这种方案。比如99%的key就对应10条数据，但是只有一个key对应了100万数据，从而导致了数据倾斜。

方案实现思路：如果我们判断那少数几个数据量特别多的key，对作业的执行和计算结果不是特别重要的话，那么干脆就直接过滤掉那少数几个key。比如，在Spark SQL中可以使用where子句过滤掉这些key或者在Spark Core中对RDD执行filter算子过滤掉这些key。如果需要每次作业执行时，动态判定哪些key的数据量最多然后再进行过滤，那么可以使用sample算子对RDD进行采样，然后计算出每个key的数量，取数据量最多的key过滤掉即可。

方案实现原理：将导致数据倾斜的key给过滤掉之后，这些key就不会参与计算了，自然不可能产生数据倾斜。

方案优点：实现简单，而且效果也很好，可以完全规避掉数据倾斜。

方案缺点：适用场景不多，有些情况导致倾斜的key不能过滤掉，或者有很多的key，或者key不固定。

方案扩展：对于join算子，导致倾斜的key如果不能直接过滤掉且在一侧表中存在的数据量不大（可以被广播），也可以单独拿出来，变形成为 “非倾斜 reduce join 非倾斜 union all 倾斜map join 倾斜”。对于group by算子，如果倾斜key只有1个或者极少量，也可以变形成为 “group by union all group by”

解决方案三：两阶段聚合（局部聚合+全局聚合）

方案适用场景：对RDD执行reduceByKey等聚合类shuffle算子或者在Spark SQL中使用group by语句进行分组聚合时，比较适用这种方案。

方案实现思路：这个方案的核心实现思路就是进行两阶段聚合。第一次是局部聚合，先给每个key都打上一个随机数，比如10以内的随机数，此时原先一样的key就变成不一样的了，比如(hello, 1) (hello, 1) (hello, 1) (hello, 1)，就会变成(1_hello, 1) (1_hello, 1) (2_hello, 1) (2_hello, 1)。接着对打上随机数后的数据，执行reduceByKey等聚合操作，进行局部聚合，那么局部聚合结果，就会变成了(1_hello, 2) (2_hello, 2)。然后将各个key的前缀给去掉，就会变成(hello,2)(hello,2)，再次进行全局聚合操作，就可以得到最终结果了，比如(hello, 4)。

方案实现原理：将原本相同的key通过附加随机前缀的方式，变成多个不同的key，就可以让原本被一个task处理的数据分散到多个task上去做局部聚合，进而解决单个task处理数据量过多的问题。接着去除掉随机前缀，再次进行全局聚合，就可以得到最终的结果。具体原理见下图。

方案优点：对于聚合类的shuffle操作导致的数据倾斜，效果是非常不错的。通常都可以解决掉数据倾斜，或者至少是大幅度缓解数据倾斜，将Spark作业的性能提升数倍以上。

方案缺点：仅仅适用于聚合类的shuffle操作，适用范围相对较窄。如果是join类的shuffle操作，还得用其他的解决方案。

解决方案四：使用随机前缀和扩容RDD进行join

方案适用场景：如果在进行join操作时，RDD中有大量的key导致数据倾斜，那么进行分拆key也没什么意义，此时就只能使用最后一种方案来解决问题了。

方案实现思路： 首先查看RDD/Hive表中的数据分布情况，找到那个造成数据倾斜的RDD/Hive表，比如有多个key都对应了超过1万条数据。 *然后将该RDD的每条数据都打上一个n以内的随机前缀。同时对另外一个正常的RDD进行扩容，将每条数据都扩容成n条数据，扩容出来的每条数据都依次打上一个0~n的前缀。最后将两个处理后的RDD进行join即可。

方案实现原理：将原先一样的key通过附加随机前缀变成不一样的key，然后就可以将这些处理后的“不同key”分散到多个task中去处理，而不是让一个task处理大量的相同key。

方案优点：对join类型的数据倾斜基本都可以处理，而且效果也相对比较显著，性能提升效果非常不错。

方案缺点：该方案更多的是缓解数据倾斜，而不是彻底避免数据倾斜。而且需要对整个RDD进行扩容，对内存资源要求很高。

方案实践经验：曾经开发一个数据需求的时候，发现一个join导致了数据倾斜。优化之前，作业的执行时间大约是60分钟左右；使用该方案优化之后，执行时间缩短到10分钟左右，性能提升了6倍。

输入倾斜

一、数据倾斜发生的原理

Input File存在倾斜，有些文件存储的数据多，有些文件存储的数据少，split时由于种种原因是按照文件进行分片的（比如spark任务在创建map task时使用的是BI策略）。这样一个文件对应一个map task，数据量少的task计算的快，数据量大的task计算的慢，由于木桶原理整个job执行的时间会等同于最慢的一个task的执行时间

二、数据倾斜的解决方案

解决方案也很简单，把小文件合并把大文件切分，具体参见大数据的小文件优化指引中的map端合并

膨胀倾斜

一、数据倾斜发生的原理

在数据处理中有一种特殊的情况，两个多对多关系的表进行join，会发生数据膨胀。比如想计算同一天在西直门地铁站出现过的用户关系，假如西直门一天的人流量是10w人，那么最终会生成10w*10w=100亿的用户关系。在计算时，reduce端的输入并没有很大，10w+10w=20w条数据，但是输出却有100亿条数据，会产生严重的倾斜。这种情况极少发生，没有经验的话可能想不到是这个原因造成的倾斜。

二、数据倾斜的解决方案

在数据处理中应该尽可能的避免笛卡尔积，以及热点key的多对多关系。如果业务上确实需要多对多关系，可以从这几点考虑优化

能否去掉一些热点的大key
能否增加一些关联条件，减少膨胀倍数以减少最终的结果数据
能否在数据范围上做减少，对于笛卡尔积的关联需要把结果数据条数控制在1亿以内
如果是M*N（M>>N）的多对多关系,可以考虑把小表N广播出去，对于大表M切分成多个很小的数据分片，进行mapjoin
如果是一个大表关联一个不能广播的小表，可以考虑对于小表进行膨胀N倍，对于大表的join key在关联的时候加上1-N之间的随机数。这样可以把同一个大key分散到多个task中，缓解膨胀带来的倾斜

数据建筑师

关注

23
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
深入分析数据倾斜出现的原因与优化

目录数据倾斜发生时的现象数据倾斜发生的场景shuffle倾斜一、数据倾斜发生的原理二、数据倾斜的解决方案解决方案一：将reduce join转为map join解决方案二：过滤少数导致倾斜的key解决方案三：两阶段聚合（局部聚合+全局聚合）解决方案四：使用随机前缀和扩容RDD进行join输入倾斜一、数据倾斜发生的原理二、数据倾斜的解决方案膨胀倾斜一、数据倾斜发生的原理二、数据倾斜的解决方案数据倾斜发生时的现象绝大多数task执行得都非常
复制链接

扫一扫