Hadoop笔记 HDFS读写流程

最新推荐文章于 2023-03-26 13:15:00 发布

程序员的账号

最新推荐文章于 2023-03-26 13:15:00 发布

阅读量517

点赞数

分类专栏：大数据文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baidu_41586315/article/details/128121679

版权

大数据专栏收录该内容

5 篇文章 0 订阅

订阅专栏

HDFS读写流程

一、写流程
二、读流程
三、总结

一、写流程

（1）客户端通过Distributed FileSystem（我翻译成分布式文件系统？）模块向NameNode请求上传文件（会给定一个路径），然后NameNode检查目标文件是否存在，以及父目录是否存在。
（2）NameNode返回是否可以上传。
（3）客户端向NameNode请求上传第一个Block，向NameNode请求可以上传到哪几个DataNode上面。
（4）NameNode返回可以上传的dn1、dn2、dn3（采用机架感知策略进行节点的选择）。
（5）客户端通过FSDataOutputStream模块和dn1建立链接，请求上传数据，dn1收到请求后逐级和dn2建立联系、dn2和dn3建立联系。
（6）逐级应答：dn3告诉dn2、dn2告诉dn1，dn1告诉客户端。
（7）客户端开始往dn1上传第一个Block（先从磁盘读取数据然后放到一个本地内存进行缓存），以Packet为单位，dn1收到一个Packet后就会传送给dn2，dn2传送给dn3，dn1 每传一个 packet
会放入一个应答队列等待应答。
（8）当一个 Block 传输完成之后，客户端再次请求 NameNode 上传第二个 Block 的服务器。（重复执行 3-7 步）。
在这里插入图片描述

二、读流程

（1）客户端通过DistributedFileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。
（2）挑选一台DataNode（就近选择，然后随机）服务器，请求读取数据。
（3）DataNode开始传输数据给客户端
（4）客户端以Pack为单位进行阶接收，先缓存在本地，然后写入目标文件
在这里插入图片描述

三、总结

`如果DataNode在写入过程中节点挂掉？
Client 在写入过程中，有 DataNode 挂了当 Client 在写入过程中，有 DataNode 挂了。写入过程不会立刻终止（如果立刻终止，易用性和可用性都太不友好），取而代之 HDFS 尝试从流水线中摘除挂了的 DataNode 并恢复写入，这个过程称为 pipeline recovery。

首先，Pipeline数据流管道会被关闭，ack queue中的packets会被添加到data queue的前面以确保不会发生packets数据包的丢失；
接着，在正常的DataNode节点上的以保存好的block的ID版本会升级——这样发生故障的DataNode节点上的block数据会在节点恢复正常后被删除，失效节点也会被从Pipeline中删除；
最后，剩下的数据会被写入到Pipeline数据流管道中的其他两个节点中。

程序员的账号

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop笔记 HDFS读写流程

HDFS读写流程
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。