namenode和datanode工作机制_Hadoop框架：NameNode与DataNode工作机制详解

weixin_39592137

于 2020-12-19 18:42:40 发布

阅读量529

点赞数

文章标签： namenode和datanode工作机制

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39592137/article/details/111538255

版权

一、NameNode组件

1、基础描述

NameNode运行时元数据需要存放在内存中，同时在磁盘中备份元数据的fsImage，当元数据有更新或者添加元数据时，修改内存中的元数据会把操作记录追加到edits日志文件中，这里不包括查询操作。如果NameNode节点发生故障，可以通过FsImage和Edits的合并，重新把元数据加载到内存中，此时SecondaryNameNode专门用于fsImage和edits的合并。

2、工作流程

NameNode机制NameNode格式化启动之后，首次会创建Fsimage和Edits文件；

非首次启动直接加载FsImage镜像文件和Edits日志到内存中；

客户端对元数据执行增删改操作会记录到Edits文件；

然后请求的相关操作会修改内存中的元数据；

SecondaryNameNode机制询问NameNode是否需要CheckPoint，NameNode返回信息；

如果需要SecondaryNameNode请求执行CheckPoint；

NameNode切割现有日志文件，新记录滚动写入新Edits文件；

滚动前的编辑日志和镜像文件拷贝到SecondaryNameNode；

SecondaryNameNode加载Edits日志和FsImage镜像文件到内存合并；

生成新的镜像文件fsimage.chkpoint后拷贝到NameNode；

NameNode将fsimage.chkpoint重新命名成fsimage；

3、安全机制

NameNode刚启动时，会基于镜像文件和编辑日志在内存中加载文件系统元数据的映像，然后开始监听DataNode请求，该过程期间处于一个只读的安全模式下，客户端无法上传文件，在该安全模式下DataNode会发送最新的数据块列表信息到NameNode，如果满足最小副本条件，NameNode在指定时间后就会退出安全模式。

二、DataNode组件

1、基础描述

DataNode上数据块以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是数据块元数据包括长度、校验、时间戳；

DataNode启动后向NameNode服务注册，并周期性的向NameNode上报所有的数据块元数据信息；

DataNode与NameNode之间存在心跳机制，每3秒一次，返回结果带有NameNode给该DataNode的执行命令，例如数据复制删除等，如果超过10分钟没有收到DataNode的心跳，则认为该节点不可用。

2、文件存档

HDFS存储的特点，适合海量数据的大文件，如果每个文件都很小，会产生大量的元数据信息，占用过多的内存，并且在NaemNode和DataNode交互的时候变的缓慢。

HDFS可以对一些小的文件进行归档存储，这里可以理解为压缩存储，即减少NameNode的消耗，也较少交互的负担，同时还允许对归档的小文件访问，提高整体的效率。

3、回收站机制

如果开启回收站功能，被删除的文件在指定的时间内，可以执行恢复操作，防止数据被误删除情况。HDFS内部的具体实现就是在NameNode中启动一个后台线程Emptier，这个线程专门管理和监控系统回收站下面的文件，对于放进回收站的文件且超过生命周期，就会自动删除。

weixin_39592137

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。