什么是数据倾斜

最新推荐文章于 2024-07-12 06:59:03 发布

时代新人0-0

最新推荐文章于 2024-07-12 06:59:03 发布

阅读量106

点赞数

分类专栏：数据仓库文章标签：数据仓库 hive hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39889944/article/details/134818174

版权

数据仓库专栏收录该内容

9 篇文章 0 订阅

订阅专栏

什么是数据倾斜

数据倾斜产生的原理

数据倾斜的根本原因是数据的key分布不均，个别key数据很多，超出了计算节点的计算能力的结果，导致大部分节点已经计算完，但被分配大量key相同数据的节点迟迟无法计算完。

如何判断数据是否出现倾斜

1、分析节点资源管理器，如果大部分节点已经执行完成，而个别节点长时间执行不完，很可能发生了数据倾斜；

2、分析执行日志，作业在reduce阶段停留在99%，很长时间完成不了，很可能发生了数据倾斜。

常见的可能出现数据倾斜的操作

1 group by操作

2 distinct count（distinct xxx）

3 小表join大表

4 大表join小表

数据倾斜的可能原因

1.数据分布不均：在MapReduce任务中，数据的分布可能不均匀，导致某些Mapper节点处理的数据量远大于其他节点，从而导致数据倾斜。

2.键分布不均：在MapReduce任务中，如果键的分布不均匀，也会导致某些Reducer节点处理的数据量远大于其他节点，从而导致数据倾斜。

3.数据倾斜的键：在MapReduce任务中，如果某些键的数据量远大于其他键，也会导致数据倾斜。

4.数据倾斜的值：在MapReduce任务中，如果某些键对应的值的数据量远大于其他键对应的值，也会导致数据倾斜。

5.数据倾斜的计算逻辑：在MapReduce任务中，如果某些计算逻辑导致某些节点的计算量远大于其他节点，也会导致数据倾斜。

数据倾斜的一般解决方法

1.数据预处理：在MapReduce任务之前，对数据进行预处理，使得数据分布更加均匀。

2.数据重分区：在MapReduce任务中，对数据进行重分区，使得数据分布更加均匀。

3.Combiner函数：在MapReduce任务中，使用Combiner函数对Mapper节点输出的数据进行合并，减少数据传输量。

4.动态调整Reducer数量：在MapReduce任务中，根据数据分布情况动态调整Reducer节点的数量，使得每个节点处理的数据量更加均匀。

5.随机化键：在MapReduce任务中，对键进行随机化处理，使得键的分布更加均匀。

6.采用其他计算框架：在MapReduce任务中，采用其他计算框架，例如Spark、Flink等，可以更好地处理数据倾斜问题。

具体场景

hive参数调优方法解决数据倾斜

set hive.map.aggr=true;

开启map端聚合，效率更高但需要更多的内存

set hive.groupby.skewindata=true;

开启group by数据倾斜时负载均衡，生成的查询计划会有两个MRJob，如下图所示：

在这里插入图片描述

第一个MRJob 中，Map的输出结果集合会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理的结果是key相同的数据有可能被分发到不同的Reduce中，从而达到负载均衡的目的；

第二个MRJob再根据预处理的数据结果按照Key分布到Reduce中（这个过程可以保证相同的Key被分布到同一个Reduce中），最后完成最终的聚合操作

join操作所产生的数据倾斜解决方法

1 由于空值所产生的数据倾斜

解决方法：可以选择先将空值过滤掉，如果由于某些原因控制无法过滤，那就给空值填入一个不影响其他数据的随机数。

2 将不同数据类型进行关联时会产生数据倾斜，例如将int类型数据和string类型数据关联时，会导致string类型数据被分配到同一个reduce中

解决方法：可以将数字类型转化成字符串类型

3 小表与大表进行join操作会产生数据倾斜

解决方法：尽量使用map join，而不是reduce join。即让小表全部加载进内存中。如果小表过大可以使用侧视图对小表扩容。

时代新人0-0

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
什么是数据倾斜

简单介绍了数据倾斜并对数据倾斜场景进行案例分析
复制链接

扫一扫

专栏目录

时代新人0-0 CSDN认证博客专家 CSDN认证企业博客

码龄7年

42: 原创

73万+: 周排名

4万+: 总排名

3万+: 访问

: 等级

554: 积分

90: 粉丝

119: 获赞

13: 评论

190: 收藏

私信

关注

热门文章

分类专栏

leetcode算法题 1篇
Hbase 1篇
数据仓库 9篇
知识汇总 3篇
hadoop 5篇
flink 4篇
redis 2篇
Spark 3篇
java 3篇
配置记录 4篇
神经网络 1篇
web项目 2篇
往日错误总结 1篇
论文阅读总结 1篇
python

最新评论

Flink中水位线的时间戳为何要减一
时代新人0-0: 是这样的
Flink中水位线的时间戳为何要减一
Zz要变强: 我的理解是来了一条数据，先提取它的时间戳，然后调用onPeriodicEmit()方法来更新当前的事件时间时钟。假设延迟是0，比如10秒时来了一条数据，那么先提取时间戳10秒，然后更新当前事件时间时钟指向9.999秒，拿它和数据的时间戳比较，10>9.999，触发窗口计算。
SQL题：未完成率较高的50%用户近三个月答卷情况
CSDN-Ada助手: MySQL入门技能树或许可以帮到你：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
Hbase中Rowkey的设计方法
2401_84166306: 大佬的文章写的太精辟了让我深刻了解了这篇文章的精髓谢谢大佬分享，希望继续创作优质博文。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Flink中水位线的时间戳为何要减一
时代新人0-0: 我的思考是这样的，你所提出的问题关键在于理解这个公式所计算的结果是做什么的：maxTimestamp - outOfOrdernessMillis - 1。你认为的是这个公式计算出的结果9.999是指13将水位线推进到了9.999。但是，这个公式所计算出的是当前窗口的范围，也就是说目前有一个窗口，它要计算的数据是[0,9.999]这个范围的数据。当13这个数据到来的时候，此时的水位线实际是在哪里呢？13-3=10。此时不需要减一。因为减1的目的是将[0,10]这个窗口转变为[0,10)，即[0,9.999]。但是当一条数据到来的时候，也就是13这个数据到来的时候，为什么要减0.001呢？13这条数据到来是不需要减0.001的。maxTimestamp - outOfOrdernessMillis - 1 这个公式的目的是调整窗口大小，而不是调整数据到来时的实际水位线。不知道这样解释是否理解？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。