HDFS读数据流程

最新推荐文章于 2024-05-10 09:00:43 发布

Yetta!-!

最新推荐文章于 2024-05-10 09:00:43 发布

阅读量175

点赞数

文章标签： hdfs hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_61238627/article/details/121108132

版权

1client向namenode请求block所在的datanode节点列表；
2client从最近位置逐个依次从datanode中读取block信息；
3整个通过io流读取的过程需要校验每个快信息；
4读取完成，关闭所有流。

首先调用FileSystem的open方法获取一个DistributedFileSystem实例；

然后DistributedFileSystem实例通过RPC在NameNode里获得文件的第一批block的locations（可能是需要读取文件的全部，也可能是一部分），同一个block会按照在DataNode的重复数返回多个locations；

返回的多个locations会按照Hadoop拓扑结构排序，按照就近原则来排序；

前面三步结束后会返回一个FSDataInputStream对象，通过调用read方法时，该对象会找出离客户端最近的DataNode并与之建立连接；

数据通过io流从DataNode源源不断地流向客户端；

如果第一个block块数据读取完成，就会关闭指向第一个block块的DataNode连接，接着读取下一个block块，直到把这一批的block块数据读取完成；

每读取完一个block块都会进行checksum验证(校验每个块的信息通过偏移量和预写值对比，写的时候是校验packet的信息)，如果读取 DataNode 时出现错误，客户端会通知 NameNode，然后再从下一个拥有该 block 拷贝的 DataNode 继续读；

如果第一批blocks读取完成，且文件读取还没有结束，也就是文件还没读完。FSDataInputStream就会向NameNode获取下一批blocks的locations，然后重复上面的步骤，直到所有blocks读取完成，这时就会关闭所有的流。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HDFS读数据流程

1client向namenode请求block所在的datanode节点列表；2client从最近位置逐个依次从datanode中读取block信息；3整个通过io流读取的过程需要校验每个快信息；4读取完成，关闭所有流。首先调用FileSystem的open方法获取一个DistributedFileSystem实例；然后DistributedFileSystem实例通过RPC在NameNode里获得文件的第一批block的locations（可能是需要读取文件的全部，也可能是一部分），同一个b
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。