hadoop-3.0.0-beta1运维手册（011）：HDFS Erasure Coding纠删码使用

最新推荐文章于 2024-08-25 22:41:12 发布

艾叔

最新推荐文章于 2024-08-25 22:41:12 发布

阅读量5k

点赞数 1

分类专栏： Hadoop 运维文章标签： hadoop纠删码 hdfs纠删码 hdfs容错 hdfs可靠性 hadoop分布式搭建

本文链接：https://blog.csdn.net/aishuc/article/details/78734572

版权

本文详细介绍了Hadoop 3.0.0的HDFS引入的纠删码（Erasure Coding）功能，旨在提高数据可用性和空间效率。通过对比传统副本方式，纠删码能以更低的冗余率实现相同级别的数据保护。文中通过实例展示了如何扩展datanode节点，设置和使用纠删码策略，以及数据恢复验证过程。此外，还讨论了不同纠删码策略的优缺点，并解释了HDFS在数据丢失时的自动恢复机制。

摘要由CSDN通过智能技术生成

写在前面的话

Hdfs采用分布式架构，为上层的应用和用户提供可扩展、高吞吐、高可靠的数据存储服务。在整个Hadoop生态系统中，hdfs处于最底层，也是最无可替代的一个基础设施。从2008年hadoop-0.10.1版本开始到现在的hadoop-3.0.0-beta1，hdfs已经走过了近10个年头，其架构和功能特性也发生了巨大的变化。特别是hdfs3.0.0系列，和hdfs2.x相比，增加了基于纠删码（erasure encoding）的容错方式，与传统的副本方式相比，在同等可用性的情况下，能大幅节省一半以上的空间，这也是自hdfs诞生近这十年来，数据可靠性机制上的一个重大变化（之前一直都是副本容错方式）。此外hdfs3.0.0还增加了其它的一些特性，例如在Namenode HA中支持3个Namenode，可以容忍2个Namenode失效，而hdfs2.x只能容忍1个Namenode失效。

本文以连载的方式，在“大数据学习网”上记录自己使用hadoop-3.0.0-beta1的hdfs的点点滴滴，包括从零开始搭建分布式hdfs3.0，如何动态扩展hdfs节点、如何使用hdfs3.0的纠删码容错等等。不当之处，请大家发邮件aishuc@126com给艾叔，谢谢！

本节我们将演示如何使用hdfs3.0的纠删码功能，纠删码是hdfs3.0新加入的功能，之前的hdfs都是采用副本方式容错，默认情况下，一个文件有3个副本，可以容忍任意2个副本（datanode）不可用，这样提高了数据的可用性，但也带来了2倍的冗余开销。例如3TB的空间，只能存储1TB的有效数据。而纠删码则可以在同等可用性的情况下，节省更多的空间，以rs-6-3-1024K这种纠删码策略为例子，6份原始数据，编码后生成3份校验数据，一共9份数据，只要最终有6份数据存在，就可以得到原始数据，它可以容忍任意3份数据不可用，而冗余的空间只有原始空间的0.5倍，只有副本方式的1/4，因此，可以大大节约成本。