15-Hadoop解决数据倾斜方法

最新推荐文章于 2023-03-27 15:28:15 发布

大数据捌圆

最新推荐文章于 2023-03-27 15:28:15 发布

阅读量301

点赞数

分类专栏： hadoop面经复习文章标签： hadoop mapreduce 大数据

本文链接：https://blog.csdn.net/huaxing_ba/article/details/124912839

版权

hadoop面经复习专栏收录该内容

18 篇文章 0 订阅

订阅专栏

本文详细介绍了Hadoop数据倾斜的现象，包括数据频率倾斜和数据大小倾斜，并提出了三种解决方法：1) 使用Combiner减少数据传输；2) 通过二次MapReduce进行局部和全局聚合；3) 自定义分区策略以实现更均衡的数据分布。这些方法有助于优化Hadoop集群的性能和效率。

摘要由CSDN通过智能技术生成

题目：Hadoop数据倾斜现象和解决方法

答案：

一、数据倾斜现象
数据频率倾斜——某一个区域的数据量要远远大于其他区域
数据大小倾斜——部分记录的大小远远大于平均值
在这里插入图片描述
二、数据倾斜解决方法
1.提前在map进行Combine，减少传输的数据量
在mapper加上Combiner相当于提前进行reduce，即把一个mapper中的相同key进行了聚合，减少shuffle过程中传输的数据量，以及reduce端的计算量。
如果导致数据倾斜的key大量分布在不同的mapper的时候，这种方法就不是很有效了。

2.导致数据倾斜的key大量分布在不同的mapper
（1）局部聚合加全局聚合
第一次在map阶段对那些导致了数据倾斜的key加上1到n的随机前缀，这样本来相同的key也会被分到多个reduce中进行局部聚合，数量就会大大降低。
第二次MapReduce：去掉key的随机前缀，进行全局聚合
思想：二次mr，第一次将key随机散列到不同reducer进行处理达到负载均衡的目的。第二次再根据去掉key的随机前缀，按原key进行reduce处理。
这个方法进行两次MapReduce，性能稍差。

（2）增加Reducer，提升并行度
JobConf.setNumReduceTasks(int);

（3）实现自定义分区
根据数据分布情况，自定义散列函数，将key均匀分配到不同的reducer