Hadoop-hdfs读写流程

最新推荐文章于 2023-12-27 17:54:05 发布

蘑菇一小只

最新推荐文章于 2023-12-27 17:54:05 发布

阅读量1.2k

点赞数 1

本文链接：https://blog.csdn.net/qq_42397691/article/details/84863479

版权

本文详细介绍了HDFS的写文件流程，包括客户端向NameNode请求、文件切分、DataNode之间的pipeline管道以及写入确认。同时概述了读取文件的步骤，涉及元数据查询、DataNode选择和数据校验。

摘要由CSDN通过智能技术生成

HDFS写流程

写详细步骤：

客户端向NameNode发出写文件请求。
检查是否已存在文件、检查权限。若通过检查，直接先将操作写入EditLog，并返回输出流对象。（注：WAL，write ahead log，先写Log，再写内存，因为EditLog记录的是最新的HDFS客户端执行所有的写操作。如果后续真实写操作失败了，由于在真实写操作之前，操作就被写入EditLog中了，故EditLog中仍会有记录，我们不用担心后续client读不到相应的数据块，因为在第5步中DataNode收到块后会有一返回确认信息，若没写成功，发送端没收到确认信息，会一直重试，直到成功）
client端按128MB的块切分文件。
client将NameNode返回的分配的可写的DataNode列表和Data数据一同发送给最近的第一个DataNode节点，此后client端和NameNode分配的多个DataNode构成pipeline管道，client端向输出流对象中写数据。client每向第一个DataNode写入一个packet，这个packet便会直接在pipeline里传给第二个、第三个…DataNode。（注：并不是写好一个块或一整个文件后才向后分发）
每个DataNode写完一个块后，会返回确认信息。（注：并不是每写完一个packet后就返回确认信息，个人觉得因为pa

关注