HDFS 读写流程简述

最新推荐文章于 2024-05-10 09:00:43 发布

lzxr

最新推荐文章于 2024-05-10 09:00:43 发布

阅读量1.2w

点赞数 4

分类专栏：大数据

本文链接：https://blog.csdn.net/weixin_41465541/article/details/80600416

版权

大数据专栏收录该内容

9 篇文章 0 订阅

订阅专栏

参考：https://blog.csdn.net/litianxiang_kaola/article/details/70984777

https://blog.csdn.net/zhanglh046/article/details/78547490

一、客户端读流程简述

1.跟namenode通信查询元数据，找到文件块所在的datanode服务器，HDFS客户端首先调用DistributedFileSystem

.open方法打开HDFS文件，底层会调用ClientProtocal.open方法，返回一个用于读取的HdfsDataInputStream对象。

2.从NameNode获取DataNode地址：在构造DFSInputStream的时候，对调用ClientPortocal.getBlockLocations方法向NameNode获取该文件起始位置数据块信息。NameNode返回的数据块的存储位置是按照与客户端距离远近排序的。所以DFSInputStream可以选择一个最优的DataNode节点,然后与这个节点建立数据连接读取数据块。

3.连接到DataNode读取数据块： HDFS客户端通过调用DFSInputSttream从最优的DataNode读取数据块，数据会以数据包packet形式从DataNode以流式接口传送到客户端，当达到一个数据块末尾的时候,DFSInputStream就会再次调用ClientProtocal.getBlockLoctions获取下一个数据块的位置信息，并建立和这个新的数据块的最优节点之间的连接，然后HDFS继续读取数据块。

(客户端读取数据块的时候，很有可能这个数据块的DataNode出现异常，也就是无法读取数据。这时候DFSInputStream会切换到另一个保存了这个数据块副本的DataNode，然后读取数据。另外，数据块的应答不仅包含了数据块还包含了校验值，HDFS客户端收到数据应答包的时候，会对数据进行校验，如果校验错误，也就是DataNode这个数据块副本出现了损坏，HDFS 客户端会通过ClientProtocal.reportBadBlocks向NameNode汇报这个损坏的数据块副本，同时DFSInputStream会尝试从其他DataNode读取这个数据块)

4.客户端关闭输入流

二、客户端写流程简述

1.和namenode通信请求上传文件，namenode检查目标文件是否已存在，父目录是否存在

2.namenode返回是否可以上传

3.client请求第一个 block该传输到哪些datanode服务器上

4.namenode返回3个datanode服务器ABC

5.client请求3台dn中的一台A上传数据（本质上是一个RPC调用，建立pipeline），A收到请求会继续调用B，然后B调用C，将真个pipeline建立完成，逐级返回客户端

6.client开始往A上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以packet为单位，A收到一个packet就会传给B，B传给C；A每传一个packet会放入一个应答队列等待应答

7.当一个block传输完成之后，client再次请求namenode上传第二个block的服务器。

lzxr

关注

4
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
HDFS 读写流程简述

参考：https://blog.csdn.net/litianxiang_kaola/article/details/70984777 https://blog.csdn.net/zhanglh046/article/details/78547490一、客户端读流程简述1.跟namenode通信查询元数据，找到文件块所在的datanode服务器，HDFS客户端首先调用Distri...
复制链接

扫一扫