Hadoop----HDFS读写流程+复本存放策略+一致模型

本文深入剖析Hadoop HDFS的文件读取和写入流程,包括客户端如何通过open、read和close操作与Datanode交互,以及Datanode的故障恢复机制。同时,详细介绍了HDFS的Block、Chunk、Packet结构和网络拓扑中的距离计算。复本存放策略保证了数据的稳定性和负载均衡,一致性模型解释了文件内容的可见性规则。
摘要由CSDN通过智能技术生成

剖析文件读取

open( )方法 ——> RPC ——> read( )方法【反复调用】 ——> close( )方法
在这里插入图片描述

  1. 客户端通过调用DistributedFileSystem类的FileSystem对象的open方法来打开希望读取的文件。(步骤1)
  2. DistributedFileSystem通过RPC远程过程调用namenode,从而获取到文件的起始块的位置。(get block locations)(步骤2)
    对于每一个块,namenode会返回存有其副本的datanode的地址。
    此外,datanode会根据距离client的距离来排序。
    如果此client本身就是一个datanode,那么该客户端会从存有相应数据块副本的本地datanode读取数据。(也就是距离优先)
  3. DistributedFileSystem类返回一个FSDataInputStream对象给客户端,以读取数据。
    FSDataInputStream对象进而封装一个DFSInputStream对象,该对象管理datanode和namenode的I/O。
    客户端对FSDataInputStream调用read( )方法。(步骤3)
  4. DFSInputStream随即连接与客户端距离最近的第一个块所在的datanode,通过反复调用read( )方法,可以将数据传输到client。(步骤4)
  5. 到达块的末端时,DFSInputStream关闭与datanode的连接,然后寻找下一个块的最佳datanode。(步骤5)
  6. client从流中读取数据时,块是按照打开DFSDataInputStream与datanode新建连接的顺序读取的。client还会根据需要,询问namenode下一批datanode的位置。一旦client完成读取,对FSDataInputStream调用close( )方法。(步骤6)

注意:
在读取文件的时候,如果DFSInputStream在与datanode

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值