在多硬盘情况下的Hadoop配置注意项

最新推荐文章于 2022-12-20 17:00:27 发布

jingling_zy

最新推荐文章于 2022-12-20 17:00:27 发布

阅读量1.3k

点赞数

分类专栏： hadoop 收藏文章标签： hadoop html 多线程文档测试

11 篇文章 0 订阅

订阅专栏

11 篇文章 0 订阅

订阅专栏

原文地址：http://blog.csdn.net/dajuezhao/article/details/6797015

一、背景

1、最近在做hadoop的性能测试，采用了自带的Terasort的方式，但是在运行的过程中发现如果数据量过大，对硬盘I/O需求不小（通过Ganglia监控发现），因此，打算找找看是否有合适的配置来解决这样一类的问题，所以才有了这篇记录的文档。

2、在做修改之前，当然必须确认slave的多块硬盘没有做任何形式的raid。

二、修改配置

1、hdfs-site.xml中的

[html] view plain copy

这个配置注意看就明白，每个/data1就是一个硬盘目录，中间采用英文的逗号分隔。其中写的英文说明也比较清楚。

2、mapred-site.xml中的

[html] view plain copy

<property>
<name>mapred.local.dir</name>
<value>/data1/mapred/local,/data2/mapred/local,/data3/mapred/local,/data4/mapred/local,/data5/mapred/local,/data6/mapred/local,/data7/mapred/local</value>
<description>The local directory where MapReduce stores intermediate
data files. May be a comma-separated list of
directories on different devices in order to spread disk i/o.
Directories that do not exist are ignored.
</description>
</property>