HDFS2.X源码分析之：NameNode块报告处理

最新推荐文章于 2021-09-01 20:39:20 发布

置顶

liuhong1123

最新推荐文章于 2021-09-01 20:39:20 发布

阅读量2.6k

点赞数

分类专栏： HDFS 文章标签： hadoop2.x

本文链接：https://blog.csdn.net/liuhong1123/article/details/8460733

版权

本文深入分析了HDFS2.x中NameNode处理DataNode的全量和增量块报告。全量报告主要用于处理未报告的新增、删除及无效块，以提升NameNode性能。增量报告则关注短时间内接收的块，加快文件上传速度。NameNode通过reportDiff方法处理未报告的块，移除无效信息，优化操作性能。

摘要由CSDN通过智能技术生成

原文出自云台博客：http://yuntai.1kapp.com/?p=941

NameNode会接收两种情况的块报告，DataNode全部块报告与增量块报告。

4.1全量报告分析

目前全量报告以周期性进行报告，既然已经有启动时候的全量数据块报告，错误块报告，增量块报告（包括删除块报告），为什么还需要周期性全量块报告呢?比如某DataNode接受到数据块但是增量报告失败，那就需要周期性报告来解决了，或者NameNode给DN发送了删除块的命令，但是由于网络等异常，DN没收收到删除命令，这样DN再把这些数据块报告上来就是无效块，需要再次放入无效队列，下次心跳再命令DN删除；同时比如每次块报告会清理DatanodeDescriptor对象维护的块列表还有某个块的信息，但是DN节点再也没有报告上来，定时清除这些无效信息，有助于提高块列表的操作性能，从而提供NameNode的性能。同时我们可以考虑分析是否还有其他原因可能影响NameNode的性能。

为了提高HDFS启动速度，在Hadoop2.0版本中全量块报告分为了两种：启动时候块报告与非启动的时候块报告，即是否是第一次块报告。那么具体又是如何来提高启动速度的呢？在启动的时候，不计算哪些文件元数据需要删除，不计算无效快，这些处理都推迟到下一次块报告进行处理

对于第一次块报告，代码调用流程为：NameNodeRpcServer.blockReport()->BlockManager. processReport()->BlockManager.processFirstBlockReport().对Standby节点，如果报告的数据块所相关元数据日志从节点还没有加载完毕，则会将报告的块信息加入一个队列，当Standby节点加载元数据后，再处理该消息队列，第一次块报告处理详细代码如下，可以看到，为了提高报告速度，只有简单的几步进行块报告处理，仅有验证块是否损坏，然后直接判断块状态是否为FINALIZED状态，如果是，就直接建立块与DN节点的映射。

private void processFirstBlockReport(final DatanodeDescriptor node,
      final BlockListAsLongs report) throws IOException {
    if (report == null) return;
    assert (namesystem.hasWriteLock());
    assert (node.numBlocks() == 0);
    BlockReportIterator itBR = report.getBlockReportIterator();
 
    while(itBR.hasNext()) {
      Block iblk = itBR.next();
      ReplicaState reportedState = itBR.getCurrentReplicaState();
      //对于从节点shouldPostponeBlocksFromFuture为true；判断块时间戳//是否大于目前时间
      if (shouldPostponeBlocksFromFuture&&
          n