MapReduce数据倾斜产生的原因及其解决方案

最新推荐文章于 2024-01-14 07:46:08 发布

运维仙人

最新推荐文章于 2024-01-14 07:46:08 发布

阅读量1.2k

点赞数

分类专栏：大数据文章标签： mapreduce hadoop 大数据

运维仙人

本文链接：https://blog.csdn.net/weixin_37791303/article/details/129906420

版权

35 篇文章 3 订阅

订阅专栏

数据倾斜就是数据的key的分化严重不均，造成一部分数据很多，一部分数据很少的局面。
数据频率倾斜 —— 某一个区域的数据量要远远大于其他区域。
数据大小倾斜 —— 部分记录的大小远远大于平均值。

Job数多的作业运行效率会相对比较低；
countdistinct、group by、join等操作，触发了shuffle动作，导致全部相同key的值聚集在一个或几个节点上，很容易发生单点问题。

key 分布不均匀，某一个key的数据条数比其他key多太多；
业务数据自带的特性；
建表时考虑不全面；
可能某些 HQL 语句自身就存在数据倾斜问题。

从业务和数据方面解决数据倾斜
有损的方法： 找到异常数据。
无损的方法：
对分布不均匀的数据，进行单独计算，首先对key做一层hash，把数据打散，让它的并行度变大，之后进行汇集数据预处理

Hadoop平台的解决方法

需要注意：这一功能使用时，需要开启map-side join的设置属性：

set hive.auto.convert.join=true #(默认是false)

set hive.mapjoin.smalltable.filesize=25000000 #(默认值25M)

set hive.exec.reducers.bytes.per.reducer = 1000000000

set hive.optimize.skewjoin = true;
set hive.skewjoin.key = skew_key_threshold  #(default = 100000)

解决方式相对简单：

#(默认true) 这个配置项代表是否在map端进行聚合，相当于Combiner
hive.map.aggr=true 
hive.groupby.skewindata

set mapred.reduce.tasks=800

使用sum…group byl来替代。例如select a,sum(1) from (select a, b from t group by a,b) group by a;

关注