HDFS源码分析之UnderReplicatedBlocks（一）_under replecated blocks-CSDN博客

本文链接：https://blog.csdn.net/lipeng_bigdata/article/details/51160359

UnderReplicatedBlocks是HDFS中处理数据块复制优先级的数据结构，分为五个优先级队列。本文分析了其根据数据块副本数和状态确定优先级的逻辑，并介绍了添加、移除和更新数据块优先级的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

UnderReplicatedBlocks是HDFS中关于块复制的一个重要数据结构。在HDFS的高性能、高容错性体系中，总有一些原因促使HDFS系统内进行块复制工作，比如基于高性能的负载均衡、基于容错性的数据块副本数恢复等。普遍的，任何工作都会有一个优先级的问题，特别是这里的数据块复制，不可能简单的按照先入先出或者其他简单策略，比方说，基于容错性的数据块副本数恢复，特别是数据块副本仅有一个的数据块副本数恢复，其优先级肯定要比基于高性能的负载均衡高，所以数据块复制要有个优先级的概念，那么，数据块复制的优先级怎么确定，怎么存储？一切答案均在UnderReplicatedBlocks中，本文我们将开始分析UnderReplicatedBlocks。

UnderReplicatedBlocks专门用于存储待优先级的需要复制的数据块。何谓数据块复制优先级，我们看下UnderReplicatedBlocks类中的几个静态成员变量及其说明就会得到答案，如下：

  /** The queue with the highest priority: {@value} */
  // 最高优先级队列的优先级值0
  static final int QUEUE_HIGHEST_PRIORITY = 0;
  /** The queue for blocks that are way below their expected value : {@value} */
  // 第二优先级队列的优先级值1：主要针对低于副本数要求很多的数据块
  static final int QUEUE_VERY_UNDER_REPLICATED = 1;
  /** The queue for "normally" under-replicated blocks: {@value} */
  // 第三优先级队列的优先级值2：主要针对低于副本数要求不是很多，即一般情况的数据块
  static final int QUEUE_UNDER_REPLICATED = 2;
  /** The queue for blocks that have the right number of replicas,
   * but which the block manager felt were badly distributed: {@value}
   */
  // 第四优先级队列的优先级值3：主要针对副本数满足要求，但是数据块管理器BlockManager感觉严重分布不均
  static final int QUEUE_REPLICAS_BADLY_DISTRIBUTED = 3;
  /** The queue for corrupt blocks: {@value} */
  // 第五优先级队列的优先级值4：主要针对损坏的数据块
  static final int QUEUE_WITH_CORRUPT_BLOCKS = 4;

数据块复制优先级共分为五种级别，从高到底依次如下：

1、QUEUE_HIGHEST_PRIORITY = 0：最高优先级

主要针对数据块副本数非常的、严重的不足的情况，当前副本数低于期望值，且仅有1个或者干脆没有，比如副本数仅有1个，或者副本数干脆为0，但是还存在退役副本，这种情况最危险，数据最容易丢失，所以复制的优先级也最高；

2、QUEUE_VERY_UNDER_REPLICATED = 1：第二优先级

主要针对数据块副本数比较不足的情况，比上面的情况好点，当前副本数低于期望值，但是副本数大于1，其判断公式为当前副本数curReplicas乘以3还小于期望副本数expectedReplicas，这种情况也比较危险，数据也容易丢失，所以复制的优先级也很高；

3、QUEUE_UNDER_REPLICATED = 2：第三优先级

主要针对数据块副本数低于期望值，但是还不是很严重、很危急的情况；

4、QUEUE_REPLICAS_BADLY_DISTRIBUTED = 3：第四优先级

主要针对数据块已经有足够的副本数，但是没有足够的机架的情况，这是负载均衡等策略需要的产物；

5、QUEUE_WITH_CORRUPT_BLOCKS = 4：第五优先级

主要针对损坏的数据块的情况，其副本数位0，但是还没有退役副本，所以优先级最低，话说，这种数据块还需要哦复制吗？留个小小的疑问吧！

通过上面的说明，我们可以简单总结下：

当前副本数低于期望值时，如果当前副本数为1，甚至存在退役副本的情况下为0时，其复制优先级最高，如果当前副本数为0且没有退役副本，则复制优先级最低；如果当前副本数大于1，但是乘以3还小于期望副本数，处于比较危险的情况，则优先级次之，否则是第三优先级。而当当前副本数等于或高于期望值时，则可能是没有足够机架的情况，此时的优先级比最低优先级稍高，为第四优先级。

UnderReplicatedBlocks也提供了根据数据块及其副本情况来获取复制优先级的getPriority()方法，代码如下：

  /** Return the priority of a block
   * 计算指定数据块复制优先级
   * 
   * @param block a under replicated block
   * @param curReplicas current number of replicas of the block
   * @param expectedReplicas expecte