hadoop mapreduce 优化

最新推荐文章于 2021-12-14 09:39:41 发布

weixin_30384031

最新推荐文章于 2021-12-14 09:39:41 发布

阅读量94

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/c840136/archive/2013/03/10/2952887.html

版权

mapreduce程序效率的瓶颈在于两点：

　　1：计算机性能

　　2：I/O操作优化

优化无非包括时间性能和空间性能两个方面，存在一下常见的优化策略：

　　1：输入的文件尽量采用大文件

　　　　众多的小文件会导致map数量众多，每个新的map任务都会造成一些性能的损失。所以可以将一些小文件在进行mapreduce操作前进行一些预处理，整合成大文件，或者直接采用ConbinFileInputFormat来作为输入方式，此时hadoop会考虑节点和集群的位置信息，已决定将哪些文件打包到同一个单元之中。

　　2：合理分配map和reduce任务的数量

　　　　通过属性mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum分别可以配置单个节点上map任务和reduce任务的最大数量。

　　3：压缩中间数据，减少I/O

　　4：在map后先进行combine处理，减少I/O

参考资料：《Hadoop 实战》--机械工业出版社

转载于:https://www.cnblogs.com/c840136/archive/2013/03/10/2952887.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30384031

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop mapreduce 优化

mapreduce程序效率的瓶颈在于两点：　　1：计算机性能　　2：I/O操作优化优化无非包括时间性能和空间性能两个方面，存在一下常见的优化策略：　　1：输入的文件尽量采用大文件　　　　众多的小文件会导致map数量众多，每个新的map任务都会造成一些性能的损失。所以可以将一些小文件在进行mapreduce操作前进行一些预处理，整合成大文件，或者直接采用ConbinFileInp...
复制链接

扫一扫