HDFS读流程

HDFS读流程

在这里插入图片描述

  1. 客户端通过分布式FileSystem.open(path)方法,与NameNode之间进行RPC通信,其中open方法会将一个path传递过去,这个path就是我们要查看的文件或文件夹的路径.NameNode会对这个path进行校验,判断是否存在这个路径,以及是否拥有相应的权限去读取。

  2. 校验完后返回一个FSDataInputStream对象,当要读取client需再次向NameNode发送一次请求,然后NameNode回返回要读取文件的全部或者一部分block列表(有可能一次获取完成不了)

  3. 客户端调用FSDataInputStream对象的read方法去读取每一个block最近地址的副本(虽然有多个副本,但是并不是要读取全部副本,会根据一个算法来读取离客户端最近节点上的副本),读取完后校验这个block是否损坏,如果没有问题自动关闭当前与DataNode的通信。如果校验失败,会记录下这个受损的block在哪个DataNode节点上,下次不会再读取。

  4. 依次类推,继续读取下个block,当把block列表里的block都读取完成后,文件还没有结束将继续向NameNode申请下一批block列表

  5. 最后客户端调用FSDataInputStream的close方法来关闭输入流。


关于HDFS通信:
所有的HDFS通信都基于TCP/IP协议。客户端建立与NameNode通信的端口,它将客户端协议与NameNode进行通信。DataNode使用DataNode协议与NameNode通信。按照架构设计,NameNode永远不会开启任何的RPC,相反,它只响应DataNode或者客户端发送的PRC通信请求。

P.S 原文摘自 The Communication Protocols
https://hadoop.apache.org/docs/r2.7.7/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值