Hadoop 学习研究: NameNode启动过程

最新推荐文章于 2023-09-29 22:34:33 发布

午后的红茶meton

最新推荐文章于 2023-09-29 22:34:33 发布

阅读量573

点赞数

分类专栏： Hadoop分析与理解文章标签： NameNode启动过程

本文链接：https://blog.csdn.net/u012151684/article/details/73368753

版权

Hadoop分析与理解专栏收录该内容

40 篇文章 18 订阅

订阅专栏

NameNode启动过程:

(1)加载镜像文件：主要用于加载还原checkpoint时间节点前的元数据fsimage文件中的（包含目录结构，文件大小，块的大小，块的id等等信息），不包含块的存储位置

(2)加载editlogs文件：主要用于加载还原客户端对名字空间的操作编辑记录，editlog是一个日志文件，其会记录hdfs客户端执行的所有写操作记录。（至此namenode还原的元数据唯一缺失的就是块的存储位置）

(3)blockreport阶段，datanode启动，向namendoe汇报自己所管理的块及块的id，namenode根据块的ID还原块的存储位置

(4)在blockreport结束后，集群会判断，datanode的启动数量（可设置，默认为0），丢失的块的占比（可设置，默认0.999f）

是否满足退出安装模式的条件，如果满足，30秒后退出安全模式。

其主要在启动过程中

fsimage加载过程

Fsimage加载过程完成的操作主要是为了：

1. 从fsimage中读取该HDFS中保存的每一个目录和每一个文件

2. 初始化每个目录和文件的元数据信息

3. 根据目录和文件的路径，构造出整个namespace在内存中的镜像

4. 如果是文件，则读取出该文件包含的所有blockid，并插入到BlocksMap中。

整个加载流程如下图所示：

如上图所示，namenode在加载fsimage过程其实非常简单，就是从fsimage中不停的顺序读取文件和目录的元数据信息，并在内存中构建整个namespace，同时将每个文件对应的blockid保存入BlocksMap中，此时BlocksMap中每个block对应的datanodes列表暂时为空。当fsimage加载完毕后，整个HDFS的目录结构在内存中就已经初始化完毕，所缺的就是每个文件对应的block对应的datanode列表信息。这些信息需要从datanode的blockReport中获取，所以加载fsimage完毕后，namenode进程进入rpc等待状态，等待所有的datanodes发送blockReports。

BlockReport阶段

每个datanode在启动时都会扫描其机器上对应保存hdfs block的目录下(dfs.data.dir)所保存的所有文件块，然后通过namenode的rpc调用将这些block信息以一个long数组的方式发送给namenode，namenode在接收到一个datanode的blockReport rpc调用后，从rpc中解析出block数组，并将这些接收到的blocks插入到BlocksMap表中，由于此时BlocksMap缺少的仅仅是每个block对应的datanode信息，而namenoe能从report中获知当前report上来的是哪个datanode的块信息，所以，blockReport过程实际上就是namenode在接收到块信息汇报后，填充BlocksMap中每个block对应的datanodes列表的三元组信息的过程。其流程如下图所示: