Hadoop18：【案例】MapReduce性能优化之数据倾斜问题解决方案

最新推荐文章于 2022-05-05 20:44:42 发布

置顶做一个有趣的人Zz

最新推荐文章于 2022-05-05 20:44:42 发布

阅读量837

点赞数 2

分类专栏： hadoop 文章标签： hadoop hdfs mapreduce

本文链接：https://blog.csdn.net/weixin_40612128/article/details/123232940

版权

hadoop 专栏收录该内容

57 篇文章 2 订阅 ¥59.90 ¥99.00

订阅专栏

本文探讨了如何提高MapReduce的执行效率，主要关注Reduce阶段。通过增加Reduce任务的数量来实现数据分流，提高计算效率。然而，当面临数据倾斜问题时，单纯增加Reduce任务并不能解决问题。为了解决数据倾斜，文章提出了将倾斜数据打散的策略，通过在Map阶段修改键值，使倾斜数据均匀分布到多个Reduce任务中，从而显著提高任务执行速度。

摘要由CSDN通过智能技术生成

在实际工作中，如果我们想提高MapReduce的执行效率，最直接的方法是什么呢？
我们知道MapReduce是分为Map阶段和Reduce阶段，其实提高执行效率就是提高这两个阶段的执行效率
默认情况下Map阶段中Map任务的个数是和数据的InputSplit相关的，InputSplit的个数一般是和Block块是有关联的，所以可以认为Map任务的个数和数据的block块个数有关系，针对Map任务的个数我们一般是不需要干预的，除非是前面我们说的海量小文件，那个时候可以考虑把小文件合并成大文件。其他情况是不需要调整的，
那就剩下Reduce阶段了，咱们前面说过，默认情况下reduce的个数是1个，所以现在MapReduce任务的压力就集中在Reduce阶段了，如果说数据量比较大的时候，一个reduce任务处理起来肯定是比较慢的，所以我们可以考虑增加reduce任务的个数，这样就可以实现数据分流了，提高计算效率了。

但是注意了，如果增加Reduce的个数，那肯定是要对数据进行分区的，分区之后，每一个分区的数据会被一个reduce任务处理。
那如何增加分区呢？
我们来看一下代码，进入WordCountJob中，
其实我们可以通过job.setPartitionerClass来设置分区类，不过目前我们

了解本专栏

做一个有趣的人Zz

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Hadoop18：【案例】MapReduce性能优化之数据倾斜问题解决方案

在实际工作中，如果我们想提高MapReduce的执行效率，最直接的方法是什么呢？我们知道MapReduce是分为Map阶段和Reduce阶段，其实提高执行效率就是提高这两个阶段的执行效率默认情况下Map阶段中Map任务的个数是和数据的InputSplit相关的，InputSplit的个数一般是和Block块是有关联的，所以可以认为Map任务的个数和数据的block块个数有关系，针对Map任务的个数我们一般是不需要干预的，除非是前面我们说的海量小文件，那个时候可以考虑把小文件合并成大文件。其他情况是不需要
复制链接

扫一扫