大数据常见问题：数据倾斜的原理及处理方案

徐凤年不是真无敌

已于 2022-02-15 13:40:59 修改

阅读量1.1w

点赞数 16

文章标签： hadoop 大数据 mapreduce scala spark

于 2022-02-14 16:18:08 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ariesly0411/article/details/122926634

版权

本文深入探讨了大数据处理中的数据倾斜问题，包括其原因、现象和危害。介绍了如何通过参数调节、SQL优化和其他方法来处理数据倾斜，如提高shuffle并行度、map端聚合、Reduce join改Map join等策略，旨在减少任务执行时间，提升资源利用率和避免内存溢出。

摘要由CSDN通过智能技术生成

什么是数据倾斜

Hadoop能够进行对海量数据进行批处理的核心，在于它的分布式思想，通过多台服务器（节点）组成集群，共同完成任务，进行分布式的数据处理。

理想状态下，一个任务是由集群下所有机器共同承担执行任务，每个节点承担的任务应该相近，但实际上在并行处理过程中，分配到每台节点的数据量并不是均匀的，当大量的数据分配到某一个节点时（假设10个节点，5亿数据），那么原本只需要1小时完成的工作，变成了其中9个节点不到1小时就完成了工作，而分配到了大量数据的节点，花了5个小时才完成

从最终结果来看，就是这个处理10亿数据的任务，集群花了5个小时才最终得出结果。大量的数据集中到了一台或者几台机器上计算，这些数据的计算速度远远低于平均计算速度，导致整个计算过程过慢，这种情况就是发生了数据倾斜。

为什么会导致数据倾斜

数据倾斜发生的原因

1)、key分布不均匀

某些key的数量过于集中，存在大量相同值的数据

存在大量异常值或空值。

2)、业务数据本身的特性

例如某个分公司或某个城市订单量大幅提升几十倍甚至几百倍，对该城市的订单统计聚合时，容易发生数据倾斜。

3)、建表时考虑不周

4)、某些SQL语句本身就有数据倾斜

两个表中关联字段存在大量空值，或是关联字段的数据不统一，例如在A表中值是大写，B表中值是小写等情况。

发生数据倾斜的SQL操作

数据倾斜发生时的现象

MapReduce任务：

主要表现在ruduce阶段卡在99.99%，一直99.99%不能结束。

有一个多几个reduce卡住
各种container报错OOM
读写的数据量极大，至少远远超过其它正常的reduce伴随着数据倾斜，会出现任务被kill等各种诡异的表现。

Spark任务：

绝大多数task执行得都非常快，但个别task执行的极慢。
单个Executor执行时间特别久，整体任务卡在某个stage不能结束
Executor lost，OOM，Shuffle过程出错。
正常运行的任务突然失败
用SparkStreaming做实时算法时候，一直会有executor出现OOM的错误，但是其余的executor内存使用率却很低。

为什么要处理？

首先要知道数据倾斜的危害

1.任务长时间挂起，资源利用率下降

在分阶段执行任务的场景下，阶段与阶段之间通常存在数据上的依赖关系，后一阶段任务需要等前一阶段执行完成才能开始

举个例子

Stag

最低0.47元/天解锁文章

徐凤年不是真无敌

关注

16
点赞
踩
115

收藏

觉得还不错? 一键收藏
0
评论
大数据常见问题：数据倾斜的原理及处理方案

什么是数据倾斜Hadoop能够进行对海量数据进行批处理的核心，在于它的分布式思想，通过多台服务器（节点）组成集群，共同完成任务，进行分布式的数据处理。理想状态下，一个任务是由集群下所有机器共同承担执行任务，每个节点承担的任务应该相近，但实际上在并行处理过程中，分配到每台节点的数据量并不是均匀的，当大量的数据分配到某一个节点时（假设10个节点，5亿数据），那么原本只需要1小时完成的工作，变成了其中9个节点不到1小时就完成了工作，而分配到了大量数据的节点，花了5个小时才完成从最终结果来看，就是这个处
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。