Hadoop文件系统元数据（MetaData）的持久化

最新推荐文章于 2024-07-09 21:30:04 发布

pchexf

最新推荐文章于 2024-07-09 21:30:04 发布

阅读量778

点赞数

分类专栏：大数据文章标签： Hadoop大数据元数据持久化

本文链接：https://blog.csdn.net/qq_44645104/article/details/99708542

版权

大数据专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Hadoop文件系统元数据（MetaData）的持久化

**
HDFS名称空间由NameNode存储。NameNode使用名为EditLog的事务日志来持久记录文件系统元数据发生的每个更改。例如，在HDFS中创建新文件会导致NameNode将记录插入EditLog，以指示此情况。同样，更改文件的复制因子会导致将新记录插入EditLog。NameNode使用其本地主机OS文件系统中的文件来存储EditLog。整个文件系统命名空间（包括块到文件和文件系统属性的映射）存储在名为FsImage的文件中。FsImage也作为文件存储在NameNode的本地文件系统中。 NameNode在整个内存中保存整个文件系统命名空间和文件Blockmap的映像。当NameNode启动，或者由可配置的阈值触发检查点时，它从磁盘读取FsImage和EditLog，将EditLog中的所有事务应用到FsImage的内存中表示，并将此新版本刷新为磁盘上的新FsImage。然后它可以截断旧的EditLog，因为它的事务已应用于持久性FsImage。此过程称为检查点。检查点的目的是通过获取文件系统元数据的快照并将其保存到FsImage来确保HDFS具有文件系统元数据的一致视图。尽管读取FsImage是有效的，但直接对FsImage进行增量编辑效率不高。我们不会修改每个编辑的FsImage，而是在Editlog中保留编辑内容。在检查点期间，Editlog的更改将应用于FsImage。可以在给定的时间间隔触发检查点（dfs.namenode.checkpoint.period）以秒为单位表示，或者在累积了给定数量的文件系统事务之后（dfs.namenode.checkpoint.txns）。如果同时设置了这两个属性，则要达到的第一个阈值将触发检查点。
DataNode将HDFS数据存储在其本地文件系统中的文件中。DataNode不了解HDFS文件。它将每个HDFS数据块存储在其本地文件系统中的单独文件中。DataNode不会在同一目录中创建所有文件。相反，它使用启发式方法来确定每个目录的最佳文件数，并适当地创建子目录。在同一目录中创建所有本地文件并不是最佳选择，因为本地文件系统可能无法有效地支持单个目录中的大量文件。当DataNode启动时，它会扫描其本地文件系统，生成与每个本地文件对应的所有HDFS数据块的列表，并将此报告发送到NameNode。该报告称为Blockreport。
在这里插入图片描述