HDFS数据恢复模式

最新推荐文章于 2024-05-03 21:27:04 发布

Android路上的人

最新推荐文章于 2024-05-03 21:27:04 发布

阅读量5.9k

点赞数

分类专栏： HDFS Hadoop 文章标签： hdfs recovery

本文链接：https://blog.csdn.net/androidlushangderen/article/details/52679606

版权

本文介绍了HDFS数据恢复模式，当NameNode因元数据损坏无法启动时，该模式通过跳过错误editlog保证NameNode启动。恢复模式不是DataNode数据恢复，而是元数据自我恢复。在启动过程中，NameNode生成新fsImage并退出，使得集群可以正常启动。详细阐述了Recovery Mode的原理、核心代码实现及使用方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

在现有的HDFS中，为了保证元数据的高可用性，我们可以在配置项dfs.namenode.name.dir中配置多个元数据存储目录来达到多备份的作用。这样一来，如果其中一个目录文件损坏了，我们可以选择另外可用的文件。那么问题来了，如果所有备用的元数据都损坏了，不能用了，这个时候怎么办，那么是否就意味着集群就永远启动不起来了呢？这将会是一个多么糟糕的结果啊。在这里，我们就要引出本文的主题：HDFS的数据恢复模式（Recovery Mode）。

HDFS数据恢复模式概述

HDFS数据恢复模式的使用场景如前文中所提到的，当系统遭遇到硬件问题或软件层面的问题导致文件损坏，从而导致NameNode无法正常启动，这个时候数据恢复模式就派上用场了。更全面地来说，HDFS数据恢复模式实质上是一种元数据自我恢复的启动模式。所以它并不是DataNode上真实数据的恢复，这一点可能容易被人误解。

其次，数据恢复针对的情况是损坏状态下的editlog，而不是fsImage，fsImage是恢复后生成的。

HDFS数据恢复模式原理

当editlog文件损坏的时候，如果我们启动了NameNode,很显然NameNode会在apply editlog的时候抛出异常，从而导致NameNode启动失败。而在Recovery Mode模式下，NameNode则会智能地跳过这些错误情况，从而保证NameNode启动成功。在启动完NameNode之后，它会生出一个新的Fsimage，然后再次退出，下次集群管理员就可以正常的方式来启动集群了，因为此时用的是新的fsImage。图示过程如下：

图 1-1 HDFS数据恢复模式原理图

HDFS数据恢复模式核心代码的实现

本节我们从代码层面来学习HDFS数据恢复模式是如何实现的，主要涉及到的类有NameNode，FSNamesystem，FSImage，FSEditLogLoader。

数据恢复模式的启动入口是hdfs namenode -recover命令，相应地就对应到了NameNode的处理方法，代码如下：

  public static NameNode createNameNode(String argv[], Configuration conf)
      throws IOException {
    LOG.info("createNameNode " + Arrays.asList(argv));
    if (conf == null)
      conf = new HdfsConfiguration();
    // Parse out some generic args into Configuration.
    GenericOptionsParser hParser = new GenericOptionsParser(conf, argv);
    argv = hParser.getRemainingArgs();
    // Parse the rest, NN specific args.
    StartupOption startOpt = parseArguments(argv);
    ...

    switch (startOpt) {
      case FORMAT: {
      ...
      case RECOVER: {
        // reconver参数对应的启动模式
        NameNode.doRecovery(startOpt, conf);
        return null;
      }
      ...

然后我们进入doRecovery方法，

  private static void doRecovery(StartupOption startOpt, Configuration conf)
      throws IOException {
    String nsId = DFSUtil.getNamenodeNameServiceId(conf);
    String namenodeId = HAUtil.getNameNodeId(conf, nsId);
    initializeGenericKeys(conf, nsId, namenodeId);
    ...
    try {
      // 进入FSNamesystem内的处理方法，此刻开始正式进入数据恢复过程
      fsn = FSNamesystem.loadFromDisk(conf);
      fsn.getFSImage().saveNamespace(fsn);
      ...

最低0.47元/天解锁文章