解决MapReduce过程中IO wait高的几个思路

最新推荐文章于 2023-11-10 16:27:33 发布

杨步涛的博客

最新推荐文章于 2023-11-10 16:27:33 发布

阅读量2.7k

点赞数

分类专栏： hadoop(ZK&MRv1&hdfs) 性能大数据文章标签： Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yangbutao/article/details/8740869

版权

hadoop(ZK&MRv1&hdfs) 同时被 3 个专栏收录

31 篇文章 0 订阅

订阅专栏

30 篇文章 19 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

最近在MapReduce的逻辑运算测试的时，发现单个节点的CPU的IO wait值比较高，CPU大量的消耗在等待IO操作上。

单个节点的运算的数据量比较大，每秒的IO吞吐量将近200M，iotop监控了一下主要是消耗在tasktacker从datanode节点读取数据上。

从以下几个角度上对这个问题进行优化。

1、源数据压缩存储

2、dfs.data.dir分多个目录存储

3、io.file.buffer.size的调整，增加每次读取的数据量

4、减少tasktracker并发任务的进程数量

5、map.local.dir分多个目录，减少map运算中间结果的IO影响；中间数据压缩存储。

6、文件系统的优化，预读缓存大小调整，文件挂载设置noatime、nodiratime；调整IO调度算法，适应大量顺序读的场景；

杨步涛的博客

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
解决MapReduce过程中IO wait高的几个思路

最近在MapReduce的逻辑运算测试的时，发现单个节点的CPU的IO wait值比较高，CPU大量的消耗在等待IO操作上。单个节点的运算的数据量比较大，每秒的IO吞吐量将近200M，iotop监控了一下主要是消耗在tasktacker从datanode节点读取数据上。从以下几个角度上对这个问题进行优化。1、源数据压缩存储2、dfs.data.dir分多个目录存储3、io.fi
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。