HDFS读流程

最新推荐文章于 2022-03-21 15:28:56 发布

Nekou_

最新推荐文章于 2022-03-21 15:28:56 发布

阅读量169

点赞数

分类专栏： Hadoop 文章标签： HDFS HDFS读流程 HDFS通信

本文链接：https://blog.csdn.net/aubekpan/article/details/86634096

版权

Hadoop 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

HDFS读流程

在这里插入图片描述

客户端通过分布式FileSystem.open(path)方法，与NameNode之间进行RPC通信，其中open方法会将一个path传递过去，这个path就是我们要查看的文件或文件夹的路径.NameNode会对这个path进行校验，判断是否存在这个路径，以及是否拥有相应的权限去读取。
校验完后返回一个FSDataInputStream对象，当要读取client需再次向NameNode发送一次请求，然后NameNode回返回要读取文件的全部或者一部分block列表（有可能一次获取完成不了）
客户端调用FSDataInputStream对象的read方法去读取每一个block最近地址的副本（虽然有多个副本，但是并不是要读取全部副本，会根据一个算法来读取离客户端最近节点上的副本），读取完后校验这个block是否损坏，如果没有问题自动关闭当前与DataNode的通信。如果校验失败，会记录下这个受损的block在哪个DataNode节点上，下次不会再读取。
依次类推，继续读取下个block，当把block列表里的block都读取完成后，文件还没有结束将继续向NameNode申请下一批block列表
最后客户端调用FSDataInputStream的close方法来关闭输入流。

关于HDFS通信：
所有的HDFS通信都基于TCP/IP协议。客户端建立与NameNode通信的端口，它将客户端协议与NameNode进行通信。DataNode使用DataNode协议与NameNode通信。按照架构设计，NameNode永远不会开启任何的RPC，相反，它只响应DataNode或者客户端发送的PRC通信请求。

P.S 原文摘自 The Communication Protocols
https://hadoop.apache.org/docs/r2.7.7/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html

Nekou_

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
HDFS读流程

HDFS读流程客户端通过分布式FileSystem.open(path)方法，与NameNode之间进行RPC通信，其中open方法会将一个path传递过去，这个path就是我们要查看的文件或文件夹的路径.NameNode会对这个path进行校验，判断是否存在这个路径，以及是否拥有相应的权限去读取。校验完后返回一个FSDataInputStream对象，当要读取client需再次向N...
复制链接

扫一扫