HDFS--hdfs重点概念（namenode,datanode,hdfs读写流程）

最新推荐文章于 2022-06-20 21:51:41 发布

铜锣湾扛把子-数据

最新推荐文章于 2022-06-20 21:51:41 发布

阅读量426

点赞数

分类专栏： HDFS 文章标签： hdfs hadoop 大数据

本文链接：https://blog.csdn.net/qq_37296285/article/details/93140066

版权

HDFS 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

hdfs读写流程
- hdfs写流程
- hdfs读数据流程
namenode
- namenode工作职责
- namenode启动过程
datanode
- datanode工作职责
secondary namenode
- checkpoint过程（日志合并的步骤）

hdfs读写流程

hdfs写流程

1)客户端发起请求,namenode检查请求的合法性.如果请求合法,客户端切分文件并发送第一个块文件
2)namenode查看自己的datanode池,负载均衡选出可用的datanode,并将可用的地址列表返回给客户端
3)客户端就近挑选地址,然后将文件写入缓存.缓存达到一个块的大小时,与所选地址建立连接并开始传输
4)第一个datanode以4k为单位接收数据并写入本地仓库，同时将数据传输到第二个datanode
5)第二个datanode,直至列表中的最后一个datanode,依次接收并转发数据
6)客户端发送第二个块文件,重复以上步骤,直至文件发送完成
(在流式复制时，逐级传输和响应采用响应队列来等待传输结果。队列响应完成后返回给客户端)
7)文件发送完成后,此次存储的事务完成.namenode接到通知,在目录树上记录新文件

hdfs读数据流程

(1)客户端跟namenode通信查询元数据，找到块文件所在的datanode服务器
(2)挑选一台datanode（就近原则，然后随机,指的是第一个datanode损坏的时候）服务器，请求socket流
(3)Datanode开始发送数据给客户端（从磁盘里面读取数据写入流，以packet为单位的）
(4)客户端已packet为单位去接收数据，先在本地缓存，然后写入目标文件
注：读数据时，会进行数据的校验，如果块损坏，读其他节点上的块

namenode

namenode工作职责

1)处理客户端的文件存取请求
2)管理元数据(目录树)
3)监控并管理datanode的集群状态

namenode启动过程

1)镜像文件加载到内存
还原了checkpoint时间节点前的元数据（包含目录结构，文件大小，块的大小，块的id等等信息），不包含块的存储位置
2)日志文件加载到内存
还原了checkpoint时间节点到集群停止的元数据，不包含块的存储位置。（至此namenode还原的元数据唯一缺失的就是块的存储位置）
3)datanode汇报自己的存储情况
向namendoe汇报自己所管理的块及块的id，namenode根据块的ID还原块的存储位置.

datanode

datanode工作职责

1)负责块的存储
2)定时向namenode报告块的存储状况

secondary namenode

checkpoint过程（日志合并的步骤）

1)secondary namenode通知准备开始checkpoint
2)namenode新建一个日志继续写入,以方便secondary整理之前的日志文件（这里的日志文件指的是自从上一次checkpoint完成后到这一次这个时间间隔内所产生的日志文件）
3)secondary namenode获取到这段时间产生的镜像和日志,并对镜像和日志进行整理汇总
4)整理后的日志和镜像被回传给namenode,namenode做进一步整理,以备下次重启时加载

注意：checkpoint过程是定期执行的。其原因是，namenode要维护它的元数据（即hdfs存储数据的目录，记录的就是hdfs是如何存储数据的），而为了保障数据的实时性，所以定期执行checkpoint