Hadoop学习（三）— hdfs ： NameNode与DataNode的实现机制

最新推荐文章于 2024-08-15 10:03:54 发布

Tracker_wjw

最新推荐文章于 2024-08-15 10:03:54 发布

阅读量3.7k

点赞数 2

分类专栏： Hadoop

本文链接：https://blog.csdn.net/Tracker_wjw/article/details/51245274

版权

本文介绍了Hadoop的分布式文件系统HDFS，主要关注NameNode和DataNode的角色。NameNode负责元数据管理，DataNode存储文件块。NameNode通过editlog记录元数据变化，DataNode保存文件块副本。当editlog达到一定大小或时间间隔，由Secondary NameNode进行checkpoint操作。此外，讨论了HDFS的Block策略、元数据存储和高可用性。

摘要由CSDN通过智能技术生成

数据量越来越多，在一台PC的范围存不下了，那么就分配到更多的PC中，但是不方便管理和维护，因此迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。分布式文件管理系统很多，Hadoop的HDFS只是其中一种。

HDFS主要分为两大角色，NameNode与DataNode，NameNode主要负责管理元数据，DataNode主要负责存储文件块。NameNode来管理datanode与文件块的映射关系。

一、NameNode的工作机制

当客户端想HDFS请求，上传的文件的时候，NameNode会先去检查，要上传文件的目录是否存在，不存在，则允许上传。得到允许和NameNode返回的DataNode信息后，客户端开始向DataNode写入block，而block的副本的复制（NameNode管理），与客户端上传是异步进行的。

HDFS为了快速的响应客户端的请求，也为了安全性的考虑(NameNode管理所有datanode，namenode宕机或者损坏，内存中的数据丢失，datanode中的所有数据就会无效)，为了防止这种情况的发生，NameNode是如何实现的？

当客户端请求namenode时，namenode会将客户端的数据进行分析，分配好datanode，并将信息记录在一个editslog的文件中，并将datanode信息返回给客户端，客户端得到信息后，开始写入，每完成一个block，客户端会发发送成功信息给namenode，namenode就会把editlog中的信息，加载进内存，这样即使断电或者宕机，namenode中内存的数据也可以恢复，其他客户端想要下载数据，也可以从内存中加载，实现了快速响应。

editlog的空间是有限的，集群运行时间编边长的时候，editlog写满后，hdfs会将editlog的数据写入fsimage，