HDFS的写入和读取流程

最新推荐文章于 2024-07-22 02:03:32 发布

小埋璐璐

最新推荐文章于 2024-07-22 02:03:32 发布

阅读量334

点赞数 2

分类专栏：大数据文章标签： hdfs

本文链接：https://blog.csdn.net/Malu_/article/details/102909655

版权

本文详细介绍了HDFS的写入和读取流程。在写入过程中，client首先与namenode交互，确认文件上传权限，然后namenode分配DataNode，建立pipeline进行数据传输。读取时，client通过NameNode获取文件block位置，选择最近的DataNode读取数据，支持并行读取和故障恢复，确保文件完整读取。

摘要由CSDN通过智能技术生成

HDFS的写入流程

在这里插入图片描述
1.client 发起文件上传请求，通过rpc与namenode建立通讯，namenode检查目标文件是否已经存在，父目录是否存在，返回是否可以上传
2.client 请求第一个block该传到哪些datanode服务器上
3.namenode根据配置文件中指定的备份数量及机架感知原理进行文件分配，返回可用的DataNode的地址如：
A，B，C；
4、 client请求3台DataNode中的一台A上传数据（本质上是一个RPC调用，建立pipeline），A收到请求会继续调用
B，然后B调用C，将整个pipeline建立完成，后逐级返回client；
5、 client开始往A上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以packet为单位（默认64K），A
收到一个packet就会传给B，B传给C；A每传一个packet会放入一个应答队列等待应答。
6、数据被分割成一个个packet数据包在pipeline上依次传输，在pipeline反方向上，逐个发送ack（命令正确应
答），最终由pipeline中第一个DataNode节点A将pipelineack发送给client;
7、关闭写入流。
8、当一个block传输完成之后，client再次请求NameNode上传第二个block到