Hadoop----HDFS读写流程+复本存放策略+一致模型

最新推荐文章于 2022-05-29 19:53:33 发布

小口天,

最新推荐文章于 2022-05-29 19:53:33 发布

阅读量756

点赞数 1

分类专栏： Hadoop HDFS

本文链接：https://blog.csdn.net/WQY992/article/details/100026345

版权

本文深入剖析Hadoop HDFS的文件读取和写入流程，包括客户端如何通过open、read和close操作与Datanode交互，以及Datanode的故障恢复机制。同时，详细介绍了HDFS的Block、Chunk、Packet结构和网络拓扑中的距离计算。复本存放策略保证了数据的稳定性和负载均衡，一致性模型解释了文件内容的可见性规则。

摘要由CSDN通过智能技术生成

剖析文件读取

open( )方法 ——> RPC ——> read( )方法【反复调用】 ——> close( )方法
在这里插入图片描述

客户端通过调用DistributedFileSystem类的FileSystem对象的open方法来打开希望读取的文件。（步骤1）
DistributedFileSystem通过RPC远程过程调用namenode，从而获取到文件的起始块的位置。（get block locations）（步骤2）
对于每一个块，namenode会返回存有其副本的datanode的地址。
此外，datanode会根据距离client的距离来排序。
如果此client本身就是一个datanode，那么该客户端会从存有相应数据块副本的本地datanode读取数据。（也就是距离优先）
DistributedFileSystem类返回一个FSDataInputStream对象给客户端，以读取数据。
FSDataInputStream对象进而封装一个DFSInputStream对象，该对象管理datanode和namenode的I/O。
客户端对FSDataInputStream调用read( )方法。（步骤3）
DFSInputStream随即连接与客户端距离最近的第一个块所在的datanode，通过反复调用read( )方法，可以将数据传输到client。（步骤4）
到达块的末端时，DFSInputStream关闭与datanode的连接，然后寻找下一个块的最佳datanode。（步骤5）
client从流中读取数据时，块是按照打开DFSDataInputStream与datanode新建连接的顺序读取的。client还会根据需要，询问namenode下一批datanode的位置。一旦client完成读取，对FSDataInputStream调用close( )方法。（步骤6）