怎么解决数据倾斜问题？

最新推荐文章于 2025-09-05 15:23:00 发布

原创最新推荐文章于 2025-09-05 15:23:00 发布 · 5.8k 阅读

27 ·

CC 4.0 BY-SA版权

机器学习同时被 2 个专栏收录

64 篇文章

订阅专栏

海量数据处理

10 篇文章

订阅专栏

本文面向的读者是从事数据分析、数据处理（ETL）等相关工作的朋友们，相信大家在工作中一定遇到过数据倾斜的问题，读完本文，你会了解到数据倾斜的定义及其危害、产生的原因及应对措施、常见倾斜场景及解决办法等知识，相信对你今后处理数据倾斜问题会有一定的帮助。

目前流行的大数据相关的计算框架之所以能够处理大量的数据和计算，基本上都是依赖分布式计算的思想，即由一个通过某种组织关系连接在一起的集群来共同完成计算任务。

这是一个非常好的计算模型，无论多大的数据量，只要集群可以扩展，就能够扩充算力，自如应对，但与此同时，也为数据倾斜的产生埋下了伏笔。

1:什么是数据倾斜？

前面提到分布式计算，是一个集群共同承担计算任务，理想状态下，每个计算节点应该承担相近数据量的计算任务，然而实际情况通常不会这么理想，数据分配严重不均就会产生数据倾斜。我们先来给数据倾斜下个明确点的定义。

数据倾斜，指的是并行处理的过程中，某些分区或节点处理的数据，显著高于其他分区或节点，导致这部分的数据处理任务比其他任务要大很多，从而成为这个阶段执行最慢的部分，进而成为整个作业执行的瓶颈，甚至直接导致作业失败。

举个实际发生的例子说明下，一个spark作业，其中有个stage是由200个partition组成，在实际执行中，有198个partition在10秒内就完成了，但是有两个partition执行了3分钟都没有完成，并且在执行5分钟后失败了。这便是典型的数据倾斜场景，通过观察SparkUI发现这两个partition要处理的数据是其他partition的30多倍，属于比较严重的数据倾斜。

2:数据倾斜的危害

知道了什么是数据倾斜，那么它到底有什么危害，让大家这么痛恨它的同时，又很畏惧它呢。

数据倾斜主要有三点危害：

危害一：任务长时间挂起，资源利用率下降

计算作业通常是分阶段进行的，阶段与阶段之间通常存在数据上的依赖关系，也就是说后一阶段需要等前一阶段执行完才能开始。

举个例子，Stage1在Stage0之后执行，假如Stage1依赖Stage0产生的数据结果，那么Stage1必须等待Stage0执行完成后才能开始，如果这时Stage0因为数据倾斜问题，导致任务执行时长过长，或者直接挂起，那么Stage1将一直处于等待状态，整个作业也就一直挂起。这个时候，资源被这个作业占据，但是却只有极少数task在执行，造成计算资源的严重浪费，利用率下降。

危害二：由引发内存溢出，导致任务失败

数据发生倾斜时，可能导致大量数据集中在少数几个节点上，在计算执行中由于要处理的数据超出了单个节点的能力范围，最终导致内存被撑爆，报OOM异常，直接导致任务失败。

危害三：作业执行时间超出预期，导致后续依赖数据结果的作业出错

有时候作业与作业之间，并没有构建强依赖关系，而是通过执行时间的前后时间差来调度，当前置作业未在预期时间范围内完成执行，那么当后续作业启动时便无法读取到其所需要的最新数据，从而导致连续出错。

可以看出，数据倾斜问题，就像是一个隐藏的杀手，潜伏在数据处理与分析的过程中，只要一出手，非死即伤。那么它又是如何产生的呢？想要解决它，我们就要先了解它。

3：为什么会产生数据倾斜？

3.1：读入数据的时候就是倾斜的

读入数据是计算任务的开始，但是往往这个阶段就可能已经开始出现问题了。

对于一些本身就可能倾斜的数据源，在读入阶段就可能出现个别partition执行时长过长或直接失败，如读取id分布跨度较大的mysql数据、partition分配不均的kafka数据或不可分割的压缩文件。

这些场景下，数据在读取阶段或者读取后的第一个计算阶段，就会容易执行过慢或报错。

3.2：shuffle产生倾斜

在shuffle阶段造成倾斜，在实际的工作中更加常见，比如特定key值数量过多，导致join发生时，大量数据涌向一个节点，导致数据严重倾斜，个别节点的读写压力是其他节点的好几倍，容易引发OOM错误。