Hadoop Erasure Coding结构分析

最新推荐文章于 2024-06-24 16:01:54 发布

Android路上的人

最新推荐文章于 2024-06-24 16:01:54 发布

阅读量5k

点赞数 2

分类专栏： Hadoop HDFS 文章标签： hadoop hdfs EC

本文链接：https://blog.csdn.net/androidlushangderen/article/details/55805039

版权

本文详细介绍了Hadoop 3.0-alpha2中Erasure Coding (EC)的结构，包括在Hadoop Common中的基础组件和HDFS中的实现。EC技术的引入使得BlockManager、ErasureCodingPolicyManager、ECCLI、NamenodeFsck、Metric统计和数据读写模块等多方面进行了改造。EC数据流操作由DFSStripedInputStream和DFSStripedOutputStream处理，与ErasureEncoder和EnsureDecoder配合完成编码解码。EC相关数据的持久化采用简化方案，仅存储ECPolicy ID，恢复时反向获取策略信息。文章讨论了当前持久化方案的效率和结构问题，并引用了HDFS-7869 JIRA议题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

Hadoop-3.0-alpha2版本最近已经发布了，在Hadoop-3.0-alpha2版本中，社区继续fix了许多关于HDFS EC特性相关的issue。而Hadoop EC作为3.0版本中具有重大意义的feature，我们非常有必要去学习，并用好这个特性。在之前的文章中，笔者或多或少介绍过EC技术的原理知（再聊HDFS Erasure Coding）以及EC技术在Hadoop中的运用（Hadoop 3.0 Erasure Coding 纠删码功能预分析）。最近笔者重新阅读、学习了EC相关的代码，本文将要阐述的是EC在Hadoop整个工程项目中的一个结构，包括各个部分代码结构的组成以及关键代码的实现等等。

EC在Hadoop工程中的结构

首先看到这里，有些人可能会疑惑这里为什么不说是EC在HDFS中的结构呢？尽管目前EC的主要使用部分是在HDFS内部，但并不代表EC技术在未来不会被用在其它的组件上。所以社区将EC技术最最基础的部分定义在了Hadoop-Common过程下，例如EC内部中的基础块类，以及编解码算法类等等。

EC另外一部分内容的定义就自然在HDFS组件内了，比如说我们需要定义一个完全针对EC方式的数据流类：DFSStripedInputStream数据输入流类和DFSStripedOutputStream数据输出流类。总的归纳起来一句话，由于EC下的数据的条带式存储方式与原本的副本连续式的存储方式不同，这需要在许多地方做一个适配和改造。所以想要在HDFS内引入EC技术，工程量其实是不少的。笔者大致地阅读了EC相关的代码，主要存在于下面的一些HDFS模块中：

第一个，BlockManager类。EC的引入，需要在BlockManager中做多处的变更。在很多块相关处理的方法内部，需要增加是否为条带块逻辑的判断，

if(block.isStriped()){
    // EC模式下的块处理逻辑
}

最低0.47元/天解锁文章