hadoop的datanode多磁盘空间处理

最新推荐文章于 2024-05-17 18:08:49 发布

lingzihan1215

最新推荐文章于 2024-05-17 18:08:49 发布

阅读量2.5k

点赞数

分类专栏： hadoop 多磁盘

hadoop 同时被 2 个专栏收录

22 篇文章

订阅专栏

多磁盘

1 篇文章

订阅专栏

本文介绍了在Hadoop集群中如何解决因磁盘空间不足导致的任务失败问题。通过对Hadoop配置文件hdfs-site.xml的调整，尝试预留部分磁盘空间，并提供手动平衡各磁盘上数据块的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

hadoop-0.20.2 测试修改hdfs-site.xml:添加

<property>
<name>dfs.datanode.du.reserved</name>
<value>53687091200</value>
<description>Reserved space in bytes per volume. Always leave this much space free for non dfs use.
</description>
</property>

以下转自网友：

最开始安装hadoop集群的时候每台机器的磁盘只有260+G大小，使用了一段时间之后发现磁盘空间占满了，于是每个datanode又添加了两块2T的磁盘，通过hdfs-site.xml中的dfs.datanode.data.dir配置项通过逗号分隔将新添加的磁盘添加到datanode磁盘中。

添加之后问题有出现了，hadoop并不会自动将数据写到有更大空闲空间的磁盘中，还是会将之前的小磁盘写满，小磁盘写满会使mapreduce产生的临时文件没有空间写，而导致mapreduce执行失败。所以需要小磁盘留有一定的空闲空间，查看hadoop资料，设置 dfs.datanode.du.reserved配置项可以使每个磁盘保留相应的磁盘空间，单位使用bytes，但是我设置之后发现其没有起作用，我使用的hadoop版本是cloudera的cdh3u3。

没有办法，只能继续查看资料，hadoop faq中写道：

3.12. On an individual data node, how do you balance the blocks on the disk?

Hadoop currently does not have a method by which to do this automatically. To do this manually: