hadoop企业级优化

chd1937

已于 2022-06-07 00:02:10 修改

阅读量78

点赞数

文章标签： hadoop

于 2022-06-06 23:53:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chd1937/article/details/125156724

版权

在大数据开发过程中遇到过一些调优需要，在此总结了一下

1.Hadoop的mapreduce优化方法

1.1数据输入

（1）合并小文件：在执行MR任务前讲小文件进行合并，大量小文件会产生大量的map任务，增大map任务装载次数，而任务装载比较耗时从而导致map任务运行较慢

（2）采用CombineTextInputFormat来作为输入，解决输入端大量小文件场景。

1.2Map阶段

（1）减少溢写(Spill)次数：通过调整mapreduce.task.io .sort.mb

mapreduce.map.sort.spill.percent参数值，增大触发Spill的内存上限，减少Spill次数，从而减少磁盘io。

（2）减少合并（Merge）次数：通过减少mapreduce.task.io.sort.factor参数，增大Merge的文件数目，减少Merge次数，从而缩短MR处理时间。

（3）在Map之后，不影响业务逻辑的前提下，先进行Combine处理，减少IO。

1.3Reduce阶段

（1）合理设置Map和Reduce数：两个都不能设置太少，也不能设置太多。太少，会导致Task等待，延长处理时间；太多，会导致Map、Reduce任务间竞争资源，造成处理超时等错误。

（2）设置Map、Reduce共存：调整mapreduce.job .reduce .slowstart.completedmaps参数，使Map运行到一定程度后，Reduce也开始运行，减少Reduce的等待时间。

（3）规避使用Reduce：因为Reduce在用于连接数据集的时候将会产生大量的网络消耗。

（4）合理设置Reduce端的Buffer：默认情况下，数据达到一个阈值的时候，Buffer中的数据就会写入磁盘，然后Reduce会从磁盘中获得所有的数据。也就是说，Buffer和Reduce是没有直接关联的，中间多次写磁盘->读磁盘的过程，既然有这个弊端，那么就可以通过参数来配置，使得Buffer中的一部分数据可以直接输送到Reduce，从而减少IO开销：mapreduce.reduce.input.buffer.percent，默认为0.0。当值大于o的时候，会保留指定比例的内存读Buffer中的数据直接拿给Reduce使用。这样一来，设置Buffer需要内存，读取数据需要内存，Reduce计算也要内存，所以要根据作业的运行情况进行调整。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop企业级优化

在大数据开发过程中遇到过一些调优需要，在此总结了一下
复制链接

扫一扫

chd1937 CSDN认证博客专家 CSDN认证企业博客

码龄6年

2: 原创

59万+: 周排名

57万+: 总排名

118: 访问

: 等级

20: 积分

3: 粉丝

0: 获赞

1: 评论

0: 收藏

私信

关注

热门文章

最新评论

数据治理需要注意的一些方面
CSDN-Ada助手: 推荐 MySQL入门技能树：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql

大家在看

ROS话题实战【非常有用】 189

最新文章

数据治理需要注意的一些方面

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。