Hadoop原理之数据完整性

最新推荐文章于 2022-08-30 14:51:25 发布

初级以上

最新推荐文章于 2022-08-30 14:51:25 发布

阅读量2.1k

点赞数 1

分类专栏： Hadoop生态圈文章标签： hadoop

本文链接：https://blog.csdn.net/Veechange/article/details/50776313

版权

Hadoop生态圈专栏收录该内容

24 篇文章 2 订阅

订阅专栏

Hadoop的数据完整性，包括两个方面：一是，数据传输的完整性，也就是读写数据的完整性；二是，数据存储的完整性。
受网络不稳定、硬件损坏等因素，在数据传输和数据存储上，难免会出现数据丢失或脏数据，数据传输的量越大，出现错误的概率就越高。hadoop提供了一种“校验和”的机制来检测数据的完整性。
“校验和”的原理是：Hadoop在创建新文件时（也就是说，上传数据到hdfs上时），hadoop会为每一个固定长度的数据（一个个数据包）执行一次“校验和”，“校验和”的值和数据一起保存起来。数据的完整性检测，都是通过“校验和”的比较来完成的。
1、数据传输过程的数据完整性保障：
DataNode在存储客户端上传的数据之前，会先检测数据的“校验和”，没有问题才写入；同样，客户端从DataNode读取数据时也会检测数据的“校验和”，没有问题才写入本地文件系统。
2、存储的block的完整性保障：
DataNode运行着一个后台进程（DataBlockScanner），定期对存储在其上面的block进行检测“检验和”，然后将检测结果向NameNode报告。
小结：NameNode会收到来自“客户端”、DataNode的“检验和”信息，根据这两个信息，综合来维护文件的块存储及向客户端提供块读取服务。

Hadoop处理损坏数据的机制：
1）、客户端在发现坏数据后，会把坏的block和block所在的datanode报告给namenode，然后，删除掉坏的block，再跳过该datanode，重新读取另外的datanode上的block；
2）、NameNode会把这个block标记为“已损坏”，标记为“已损坏”namenode就不会为客户端指向这个block，也不会用这个block去复制到其他datanode；
3）、NameNode会把一个好的block复制到另一个datanode上；
4）、NameNode删除掉坏的block。