HDFS--hdfs重点概念(namenode,datanode,hdfs读写流程)

hdfs读写流程

hdfs写流程

1)客户端发起请求,namenode检查请求的合法性.如果请求合法,客户端切分文件并发送第一个块文件
2)namenode查看自己的datanode池,负载均衡选出可用的datanode,并将可用的地址列表返回给客户端
3)客户端就近挑选地址,然后将文件写入缓存.缓存达到一个块的大小时,与所选地址建立连接并开始传输
4)第一个datanode以4k为单位接收数据并写入本地仓库,同时将数据传输到第二个datanode
5)第二个datanode,直至列表中的最后一个datanode,依次接收并转发数据
6)客户端发送第二个块文件,重复以上步骤,直至文件发送完成
(在流式复制时,逐级传输和响应采用响应队列来等待传输结果。队列响应完成后返回给客户端)
7)文件发送完成后,此次存储的事务完成.namenode接到通知,在目录树上记录新文件

hdfs读数据流程

(1)客户端跟namenode通信查询元数据,找到块文件所在的datanode服务器
(2)挑选一台datanode(就近原则,然后随机,指的是第一个datanode损坏的时候)服务器,请求socket流
(3)Datanode开始发送数据给客户端(从磁盘里面读取数据写入流,以packet为单位的)
(4)客户端已packet为单位去接收数据,先在本地缓存,然后写入目标文件
注:读数据时,会进行数据的校验,如果块损坏,读其他节点上的块

namenode

namenode工作职责

1)处理客户端的文件存取请求
2)管理元数据(目录树)
3)监控并管理datanode的集群状态

namenode启动过程

1)镜像文件加载到内存
还原了checkpoint时间节点前的元数据(包含目录结构,文件大小,块的大小,块的id等等信息),不包含块的存储位置
2)日志文件加载到内存
还原了checkpoint时间节点到集群停止的元数据,不包含块的存储位置。(至此namenode还原的元数据唯一缺失的就是块的存储位置
3)datanode汇报自己的存储情况
向namendoe汇报自己所管理的块及块的id,namenode根据块的ID还原块的存储位置.

datanode

datanode工作职责

1)负责块的存储
2)定时向namenode报告块的存储状况

secondary namenode

checkpoint过程(日志合并的步骤)

1)secondary namenode通知准备开始checkpoint
2)namenode新建一个日志继续写入,以方便secondary整理之前的日志文件(这里的日志文件指的是自从上一次checkpoint完成后到这一次这个时间间隔内所产生的日志文件
3)secondary namenode获取到这段时间产生的镜像和日志,并对镜像和日志进行整理汇总
4)整理后的日志和镜像被回传给namenode,namenode做进一步整理,以备下次重启时加载

注意:checkpoint过程是定期执行的。其原因是,namenode要维护它的元数据(即hdfs存储数据的目录,记录的就是hdfs是如何存储数据的),而为了保障数据的实时性,所以定期执行checkpoint

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值