大数据之hdfs详解之六：读流程

最新推荐文章于 2020-09-26 02:49:35 发布

仙人掌仙人

最新推荐文章于 2020-09-26 02:49:35 发布

阅读量194

点赞数

分类专栏： Bigdata learning 零基础 hadoop 大数据文章标签：大数据写流程

本文链接：https://blog.csdn.net/Sylvia_D507/article/details/83066595

版权

Bigdata learning 同时被 3 个专栏收录

30 篇文章 0 订阅

订阅专栏

零基础

28 篇文章 0 订阅

订阅专栏

大数据

28 篇文章 0 订阅

订阅专栏

–

之前也说过读写操作对于用户来说是透明的、无感知的，用户并不关心文件是如何写进去和读出来的，例如hdfs dfs -ls 、hdfs dfs -cat、hdfs dfs -du等命令都是读流程，可以说除了上传等的命令，大部分常用的hdfs命令是读流程的。

首先来看下方的一张图，经典读流程图：
在这里插入图片描述

下面的3个DataNode可以看作是3台不同的机器运行的进程，HDFS Client和NameNode同样也可以看成是一台机器运行的进程。

读流程总结如下：

1.HDFS Client通过分布式Distributed FileSystem.open(path)方法，去与NameNode进行RPC通信，NameNode会校验这个路径是否存在以及权限是否OK。（获得block的位置信息，因为真正的block是存在DataNode节点上的，而NameNode里存放了block位置信息的元数据。）

2.校验完成后，返回文件的部分或全部的block列表(其实就是返回FSDataInputStream对象)，并将这些信息返回给客户端。

3.客户端拿到block的位置信息后调用FSDataInputStream对象的read()方法，
a.去与第一个块的最近的DataNode进行read，读取完成后，会校验，
----假如OK，会关闭与当前的DataNode的通信。
----假设check fail,会记录失败的块+DataNode信息反馈给NameNode，下次就不会读取了，那么会去这个块的第二个DataNode地址读取
b.然后读取第二个块的最近的datanode,check后，会关闭与DN的通信
c.假设整个block列表读取完了，文件还没结束，就调用Distributed FileSystem继续读取下一批次的block的列表，这个block列表有可能一次性获取不完，有可能分多次获取。
图中4和5流程是并发的，block默认有3个副本，所以每一个block只需要从一个副本读取就可以。

4.当所有的块读完之后，客户端Client调用FSDataInputStream.close()，关闭输入流。

仙人掌仙人

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据之hdfs详解之六：读流程

–之前也说过读写操作对于用户来说是透明的、无感知的，用户并不关心文件是如何写进去和读出来的，例如hdfs dfs -ls 、hdfs dfs -cat、hdfs dfs -du等命令都是读流程，可以说除了上传等的命令，大部分常用的hdfs命令是读流程的。首先来看下方的一张图，经典读流程图：下面的3个DataNode可以看作是3台不同的机器运行的进程，HDFS Client和NameN...
复制链接

扫一扫