大数据hadoop hdfs 读写流程

最新推荐文章于 2023-05-28 11:41:11 发布

MYH516

最新推荐文章于 2023-05-28 11:41:11 发布

阅读量272

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mayaohao/article/details/118675104

版权

1、HDFS读流程

1、首先调用FileSystem对象的open()方法，其实获取的是一个DistributedFileSystem的实例。

2、DistributedFileSystem用RPC调用元数据节点，得到文件的数据块信息，对于每一个数据块，元数据节点返回保存数据块的数据节点的地址。

3、会返回一个FSDataInputStream对象，可以方便的管理datanode和namenode数据流。

4、客户端调用 FSDataInputStream对象的read方法，DFSInputStream就会找出离客户端最近的datanode并连接datanode。数据从datanode流向客户端。

5、如果第一个block块的数据读完了，就会关闭指向第一个block块的datanode连接，（会记录失败的块+Datanode信息,下次就不会读取）接着读取下一个block块。

6、当客户端读取完毕数据的时候，调用FSDataInputStream的close()函数。

2、HDFS写流程

1、客户端通过调用 DistributedFileSystem 的create方法，创建一个新的文件

2、通过 RPC（远程过程调用）调用 NameNode，去创建一个没有blocks关联的新文件。创建前，NameNode 会做各种校验，比如文件是否存在，客户端有无权限去创建等。如果校验通过，NameNode 就会记录下新文件，否则就会抛出IO异常

3、返回FSDataOutputStream，执行write()方法

4、会将第一个块写入第一个DataNode，第一个DataNode写完传给第二个节点，第二个写完传给第三节点

5、当第三个节点写完返回一个ack packet给第二个节点，第二个返回一个ack packet给第一个节点，第一个节点返回ack packet给FSDataOutputStream对象，意思标识第一个块写完，副本数为3；然后剩余的块依次这样写。

6、当向文件写入数据完成后，Client调用FSDataOutputStream.close()方法，关闭输出流，flush缓存区的数据包。

7、再调用FileSystem.complete()方法，告诉NameNode节点写入成功。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

MYH516 CSDN认证博客专家 CSDN认证企业博客

码龄7年

225: 原创

5万+: 周排名

187万+: 总排名

17万+: 访问

: 等级

2957: 积分

115: 粉丝

94: 获赞

50: 评论

221: 收藏

私信

关注

热门文章

分类专栏

java 75篇
大数据 2篇
java基础 3篇
java高级 4篇
集合 5篇
流 2篇
线程 7篇
接口 3篇
lambda 2篇
scala 2篇

最新评论

IDEA 代码缩进
MYH516: 两个人月入没2万的底层猪叫的挺开心啊
IDEA 代码缩进
MYH516: 哪来的两个培训班出来找不到工作的loser 在叫？
【无标题】
MYH516: 一个月能挣几个钱了白送培训机构钱了？
【无标题】
MYH516: 等你有1个月2万再说话不然就是个底层猪
【无标题】
MYH516: 真可怜只能培训连工作都没有悲哀啊你

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。