在多硬盘情况下的Hadoop配置注意项

最新推荐文章于 2023-03-02 10:23:04 发布

dajuezhao

最新推荐文章于 2023-03-02 10:23:04 发布

阅读量1.8w

点赞数 1

分类专栏： Hadoop 文章标签： hadoop mapreduce 多线程 list disk 文档

本文链接：https://blog.csdn.net/dajuezhao/article/details/6797015

版权

Hadoop 专栏收录该内容

38 篇文章 1 订阅

订阅专栏

一、背景

1、最近在做hadoop的性能测试，采用了自带的Terasort的方式，但是在运行的过程中发现如果数据量过大，对硬盘I/O需求不小（通过Ganglia监控发现），因此，打算找找看是否有合适的配置来解决这样一类的问题，所以才有了这篇记录的文档。

2、在做修改之前，当然必须确认slave的多块硬盘没有做任何形式的raid。

二、修改配置

1、hdfs-site.xml中的

<property>
  <name>dfs.data.dir</name>
  <value>/data1,/data2,/data3,/data4,/data5,/data6,/data7</value>
  <description>Determines where on the local filesystem an DFS data node
  should store its blocks.  If this is a comma-delimited
  list of directories, then data will be stored in all named
  directories, typically on different devices.
  Directories that do not exist are ignored.
  </description>
</property>

这个配置注意看就明白，每个/data1就是一个硬盘目录，中间采用英文的逗号分隔。其中写的英文说明也比较清楚。

2、mapred-site.xml中的

<property>
  <name>mapred.local.dir</name>
  <value>/data1/mapred/local,/data2/mapred/local,/data3/mapred/local,/data4/mapred/local,/data5/mapred/local,/data6/mapred/local,/data7/mapred/local</value>
  <description>The local directory where MapReduce stores intermediate
  data files.  May be a comma-separated list of
  directories on different devices in order to spread disk i/o.
  Directories that do not exist are ignored.
  </description>
</property>

这个参数的主要中做就是在MR的过程中，将一些需要临时写到本地硬盘的数据分开写到多个盘中，降低各个硬盘的I/O压力，提升速度。之所以发现这个问题也是在MR的过程中通过ganglia发现一个硬盘的I/O压力巨大无比，而其他硬盘没有负载，所以才会发现需要修改这个配置。Ganglia真是个好东西啊！

三、总结

1、我在做的过程中主要就修改了这2个参数提升多硬盘的性能，其他的还没看到，如果有还希望大家指出说明。

2、至于是不是要做raid，网上很多文章也写过，多数是说实现了软件的备份，我认为不仅如此，在主板支持的情况下，多硬盘多线程读写速度还是很可观的。

3、最后说一个，不做raid可以节约硬件的成本，虽然谈不上多贵，但是当数量大了之后价值就可观了。需要说明一下，我用的都是7200的SATA盘。

4、写的不对或是有疑问的，欢迎大家发邮件讨论dajuezhao@gmail.com

dajuezhao

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
在多硬盘情况下的Hadoop配置注意项

一、背景1、最近在做hadoop的性能测试，采用了自带的Terasort的方式，但是在运行的过程中发现如果数据量过大，对硬盘I/O需求不小（通过Ganglia监控发现），因此，打算找找看是否有合适的配置来解决这样一类的问题，所以才有了这篇记录的文档。2、在做修改之前，当然
复制链接

扫一扫

专栏目录