【HDFS】DataNode启动异常的各种原因和处理方式

最新推荐文章于 2024-10-21 01:51:18 发布

Meepoljd

最新推荐文章于 2024-10-21 01:51:18 发布

阅读量1.2k

点赞数

分类专栏：运维大数据 HDFS 文章标签： hdfs hadoop java

本文链接：https://blog.csdn.net/Meepoljd/article/details/127400880

版权

运维同时被 3 个专栏收录

64 篇文章

订阅专栏

大数据

42 篇文章

订阅专栏

HDFS

7 篇文章

订阅专栏

DataNode启动异常的各种原因和处理方式

写在前面
Invalid volume failure

写在前面

在生产环境中，无论遇到什么问题，只要和存储相关，不要轻易使用格式化类的命令，网上很多DN启动失败的教程就是直接让你format整个HDFS，然后跟你说生产环境亲测，很坑，最后！不要format！不要format！不要format！
在这里插入图片描述

Invalid volume failure

问题描述

这是一个在做DataNode磁盘修复的时候遇到的问题，当DN出现磁盘硬件级别的损坏时，由于主机组无法快速对磁盘进行更换，组件层面的运维人员只能修改DN的配置项dfs.datanode.data.dir，暂时将异常挂载点从配置中剔除，然后重启DN服务，大部分时候DN的重启都会比较顺利，但当服务器的磁盘损坏比较多的时候，就会出现这样的启动异常日志，随后启动失败：

2022-10-19 09:02:02,209 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool <registering> (Datanode Uuid unassigned) service to XXXXXXXXX:XXXX. Exiting.
java.io.IOException: All specified directories are failed to load.
        at org.apache.hadoop.hdfs.server.datanode.DataStorage.recoverTransitionRead(DataStorage.java:574)
        at org.apache.hadoop.hdfs.server.datanode.DataNode.initStorage(DataNode.java:1379)
        at org.apache.hadoop.hdfs.server.datanode.DataNode.initBlockPool(DataNode.java:1344)
        at org.apache.hadoop.hdfs.server.datanode.BPOfferService.verifyAndSetNamespaceInfo(BPOfferService.java:317)
        at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.connectToNNAndHandshake(BPServiceActor.java:223)
        at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.run(BPServiceActor.java:802)
        at java.lang.Thread.run(Thread.java:748)

若搜索关键词Invalid volume failure有类似的信息的话，说明是坏盘容忍度的配置问题：

2022-10-19 09:01:58,509 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool <registering> (Datanode Uuid unassigned) service to XXXXXXXXX:XXXX. Exiting.
org.apache.hadoop.util.DiskChecker$DiskErrorException: Invalid volume failure  config value: 9
        at org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl.<init>(FsDatasetImpl.java:307)
        at org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetFactory.newInstance(FsDatasetFactory.java:34)
        at org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetFactory.newInstance(FsDatasetFactory.java:30)
        at org.apache.hadoop.hdfs.server.datanode.DataNode.initStorage(DataNode.java:1392)
        at org.apache.hadoop.hdfs.server.datanode.DataNode.initBlockPool(DataNode.java:1344)
        at org.apache.hadoop.hdfs.server.datanode.BPOfferService.verifyAndSetNamespaceInfo(BPOfferService.java:317)
        at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.connectToNNAndHandshake(BPServiceActor.java:223)
        at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.run(BPServiceActor.java:802)
        at java.lang.Thread.run(Thread.java:748)

问题分析

该报错的触发是在配置项dfs.datanode.failed.volumes.tolerated的值小于0或者大于等于使用的磁盘数量时：

    if (volFailuresTolerated < 0 || volFailuresTolerated >= volsConfigured) {
      throw new DiskErrorException("Invalid volume failure "
          + " config value: " + volFailuresTolerated);
    }

处理手段

确认当前配置的磁盘数量，比如当前配置的磁盘数量为8，那么该配置项的值要配置小于8的值，比如7，此时再重启DN即可：

<property>
  <name>dfs.datanode.failed.volumes.tolerated</name>
  <value>7</value>
</property>

在这里插入图片描述

遇到问题持续更新