HDFS读写流程详解和副本存放策略

本文详细介绍了HDFS的读写流程,包括客户端如何从namenode获取文件元信息并读取block,以及写流程中客户端如何建立pipeline与datanode进行数据同步。此外,还探讨了HDFS的副本存放策略,确保数据的安全性和可用性。
摘要由CSDN通过智能技术生成

1、读流程

在这里插入图片描述

1)客户端首先调用DistributedFileSystem对象的open方法,去和namenode建立rpc通信,请求namenode返回文件的元信息。
2)namenode得到请求,会在内存中寻找文件元信息。找到后给客户端返回部分(读取文件较大)或全部的block列表,即FSDataInputStream对象。
3)客户端调用FSDataInputStream对象的read()方法,从离客户端最近的block副本进行block块的读取,直到这个block块的所有信息读取完毕,然后再进行该block的校验,校验成功则读取下一个block块数据,校验失败则通知namenode并从另一个副本读取数据。
4)如果block列表中数据读取完毕,文件读取还没有结束,DistributedFileSystem对象会从namenode那儿获取下一批的block列表,再次进行block数据的读取。
5)文件读取完毕,客户端会将所有block块拼成一个完整的最终文件,然后调用FSDataInputStream对象的close()方法,关闭输入流,读取结束。

注意:
1、namenode返回的block列表中的block是经过了排序的,离客户端近的排在前面,心跳机制中超时汇报的排在后面。
2、读取实际上是多线程方式并行读

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值