MapReduce的调优总结

最新推荐文章于 2024-09-23 17:37:47 发布

Jackie_ZHF

最新推荐文章于 2024-09-23 17:37:47 发布

阅读量778

点赞数

分类专栏：大数据 Hadoop MapReduce 配置

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jackie_ZHF/article/details/79380794

版权

大数据同时被 3 个专栏收录

18 篇文章 0 订阅

订阅专栏

16 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

MapReduce的调优总结

Mapreduce服务器调优

1. mapreduce.task.io.sort.factor: mr程序进行合并排序的时候，打开的文件数量，默认为10个.

2. mapreduce.task.io.sort.mb: mr程序进行合并排序操作的时候或者mapper写数据的时候，内存大小，默认100M.

3. mapreduce.map.sort.spill.percent： mr程序进行flush操作的阀值，默认0.80。

4. mapreduce.reduce.shuffle.parallelcopies： mr程序reducer copy数据的线程数，默认5。

5. mapreduce.reduce.shuffle.input.buffer.percent: reduce复制map数据的时候指定的内存堆大小百分比，默认为0.70，适当的增加该值可以减少map数据的磁盘溢出，能够提高系统性能。

6. mapreduce.reduce.shuffle.merge.percent：reduce进行shuffle的时候，用于启动合并输出和磁盘溢写的过程的阀值，默认为0.66。如果允许，适当增大其比例能够减少磁盘溢写次数，提高系统性能。同mapreduce.reduce.shuffle.input.buffer.percent一起使用。

7. mapreduce.task.timeout：mr程序的task执行情况汇报过期时间，默认600000(10分钟)，设置为0表示不进行该值的判断。

Mapper阶段调优

mapper调优主要就是就一个目标：减少输出量。我们可以通过增加combine阶段以及对输出进行压缩设置进行mapper调优combine介绍：

实现自定义combine要求继承reducer类，特点：

以map的输出key/value键值对作为输入输出键值对，作用是减少网络输出，在map节点上就合并一部分数据。

比较适合，map的输出是数值型的，方便进行统计。

压缩设置：

在提交job的时候分别设置启动压缩和指定压缩方式。

Reducer阶段调优

reducer调优主要是通过参数调优和设置reducer的个数来完成。

reducer个数调优：

要求：一个reducer和多个reducer的执行结果一致，不能因为多个reducer导致执行结果异常。

规则：一般要求在hadoop集群中的执行mr程序，map执行完成100%后，尽量早的看到reducer执行到33%，可以通过命令hadoop job -status job_id或者web页面来查看。

原因： map的执行process数是通过inputformat返回recordread来定义的；而reducer是有三部分构成的，分别为读取mapper输出数据、合并所有输出数据以及reduce处理，其中第一步要依赖map的执行，所以在数据量比较大的情况下，一个reducer无法满足性能要求的情况下，我们可以通过调高reducer的个数来解决该问题。

优点：充分利用集群的优势。

缺点：有些mr程序没法利用多reducer的优点，比如获取top n的mr程序。

转载请注明出处：http://blog.csdn.net/jackie_zhf/article/details/79380794

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄7年

29
原创

32
点赞

68
收藏

99
粉丝

关注

私信

分类专栏

Linux 11篇
Hadoop 16篇
Spark 1篇
Storm
Mlib机器学习
大数据 18篇
HDFS 6篇
优化 6篇
配置 5篇
MapReduce 3篇
运维 2篇
源码 2篇
Hive 5篇
CDH5 2篇
Python 2篇
WC 2篇
MySql5.7 1篇
HBASE 5篇
MRJob 1篇
Python3 1篇
Flask 1篇
JDK8 1篇
Java8 1篇
Elasticsearch 1篇
算法 2篇
布隆过滤器 1篇
Kafka
CDH
Docker

最新评论

kubernetes（K8S ）安装部署【保姆级步骤保成功】
农民工老王: 干货满满，一看就懂，真是容器方面不可多得的好文章，值得仔细阅读！这次遇到大佬了，期待博主也来我这里指点一二呀。
MapReduce的调优总结
Jackie_ZHF: set 一下就可以找到具体参数值；本文更新时间为18年版本可能不一致
MapReduce的调优总结
Al leng: 引用「mapreduce.task.io.sort.factor: mr程序进行合并排序的时候，打开的」默认是100个
Spark RDD算子整理 -- 转换算子行动算子
Jackie_ZHF 回复 VI7: 哈哈哈好久没更新了
Spark RDD算子整理 -- 转换算子行动算子
Jackie_ZHF 回复 VI7: 哈哈我太懒了一起学习！

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。