大数据之hdfs详解之六:读流程

之前也说过读写操作对于用户来说是透明的、无感知的,用户并不关心文件是如何写进去和读出来的,例如hdfs dfs -ls 、hdfs dfs -cat、hdfs dfs -du等命令都是读流程,可以说除了上传等的命令,大部分常用的hdfs命令是读流程的。

首先来看下方的一张图,经典读流程图:
在这里插入图片描述

下面的3个DataNode可以看作是3台不同的机器运行的进程,HDFS Client和NameNode同样也可以看成是一台机器运行的进程。

读流程总结如下:

1.HDFS Client通过分布式Distributed FileSystem.open(path)方法,去与NameNode进行RPC通信,NameNode会校验这个路径是否存在以及权限是否OK。(获得block的位置信息,因为真正的block是存在DataNode节点上的,而NameNode里存放了block位置信息的元数据。)

2.校验完成后,返回文件的部分或全部的block列表(其实就是返回FSDataInputStream对象),并将这些信息返回给客户端。

3.客户端拿到block的位置信息后调用FSDataInputStream对象的read()方法,
a.去与第一个块的最近的DataNode进行read,读取完成后,会校验,
----假如OK,会关闭与当前的DataNode的通信。
----假设check fail,会记录失败的块+DataNode信息反馈给NameNode,下次就不会读取了,那么会去这个块的第二个DataNode地址读取
b.然后读取第二个块的最近的datanode,check后,会关闭与DN的通信
c.假设整个block列表读取完了,文件还没结束,就调用Distributed FileSystem继续读取下一批次的block的列表,这个block列表有可能一次性获取不完,有可能分多次获取。
图中4和5流程是并发的,block默认有3个副本,所以每一个block只需要从一个副本读取就可以。

4.当所有的块读完之后,客户端Client调用FSDataInputStream.close(),关闭输入流。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值