如何基于MapReduce做Hadoop的优化的？

星空下的那个人影

已于 2022-06-05 13:08:45 修改

阅读量203

点赞数

分类专栏：大数据面试 hadoop 文章标签： hadoop

于 2022-06-04 22:59:19 首次发布

本文链接：https://blog.csdn.net/sb_jb/article/details/125126408

版权

大数据面试同时被 2 个专栏收录

87 篇文章

订阅专栏

hadoop

15 篇文章

订阅专栏

本文探讨了HDFS中大量小文件带来的元数据压力和计算性能问题，提出通过合并小文件、使用CombineFileInputFormat及JVM重用来优化。同时，详细阐述了调整MapReduce阶段的参数，如增大环形缓冲区、合理设置Map和Reduce数量、利用Combiner以及数据压缩等手段，以提升MapReduce作业的效率。此外，还建议适当增加Task的内存和CPU资源，以进一步优化性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

HDFS 小文件影响

(1) 元数据层面：每个小文件都有一份元数据，其中包括文件路径、文件名、所有者、所属组、权限、创建时间等，这些信息都保存在namenode中。所以，小文件过多，会占据namenode服务器大量的内存，影响namenode的性能和使用寿命；
(2) 计算层面：默认情况下，MR会对每个小文件启动一个map任务计算，非常影响计算性能；同时也影响磁盘寻址时间。

数据输入小文件处理

合并小文件： 对小文件进行归档、自定义 Inputformat 将小文件存储成 SequenceFile 文件；
采用 CombineFileInputFormat 来作为输入，解决输入端大量小文件场景；
对于大量小文件 Job，可以开启JVM 重用

Map阶段

增加环形缓冲区大小，由 100m 扩大到 220m；
增加环形缓冲区溢写的比例，由 80% 扩大到 90%；
减少对溢写文件的 merge（合并）次数。
不影响实际业务的前提下，采用 Combiner 提前合并，减少 IO

Reduce阶段

合理设置 Map 和 Reduce 数：两个都不能设置太少，也不能设置太多。太少，会导致 Task 等待，延长处理时间；太多，会导致 Map、Reduce 任务间竞争资源，造成处理超时等错误；
设置 Map、Reduce 共存：调整 slowstart.completedmaps 参数，使 Map 运行到一定程度后，Reduce 也开始运行，减少 Reduce 的等待时间；
规避使用 Reduce，因为 Reduce 在用于连接数据集的时候将会产生大量的网络消耗；
增加每个 Reduce 去 Map 中拿数据的并行数；
集群性能可以的前提下，增加 Reduce 端存储数据内存的大小；

IO传输

采用数据压缩的方式，减少网络IO的时间；
使用 SequenceFile 二进制文件；

整体

Map Task 默认内存大小为1G，可以增加 Map Task 内存大小为 4；
Reduce Task 默认内存大小为1G，可以增加 Reduce Task 内存大小为 4-5g；
可以增加 Map Task 的 cpu核数，增加 Reduce Task 的CPU核数；
增加每个 Container 的 CPU 核数和内存大小；
调整每个 Map Task 和 Reduce Task 最大重试次数；