HDFS源码分析之数据块Block、副本Replica

最新推荐文章于 2024-03-12 10:36:30 发布

原创

最新推荐文章于 2024-03-12 10:36:30 发布 · 4.1k 阅读

3 ·

CC 4.0 BY-SA版权

我们知道，HDFS中的文件是由数据块Block组成的，并且为了提高容错性，每个数据块Block都会在不同数据节点DataNode上有若干副本Replica。那么，什么是Block？什么又是Replica？

首先，我们看下Block的定义，如下：

/**************************************************
 * A Block is a Hadoop FS primitive, identified by a 
 * long.
 *
 **************************************************/
@InterfaceAudience.Private
@InterfaceStability.Evolving
public class Block implements Writable, Comparable<Block> {
  public static final String BLOCK_FILE_PREFIX = "blk_";
  public static final String METADATA_EXTENSION = ".meta";
  
  //....省略部分代码
  
  private long blockId;
  private long numBytes;
  private long generationStamp;
  
  //....省略部分代码
  
}

Block实际上是HDFS文件数据块在HDFS元数据或者文件树中的一种表现形式。它有三个重要字段，均是long类型的，数据块艾迪blockId、数据块字节数numBytes、数据块时间戳generationStamp。另外，BLOCK_FILE_PREFIX表明了数据块数据文件在物理硬盘上为文件名是以blk_为前缀的，而METADATA_EXTENSION则标识了数据块元数据