HDFS写流程

最新推荐文章于 2022-09-10 13:46:36 发布

b1gx

最新推荐文章于 2022-09-10 13:46:36 发布

阅读量133

点赞数

分类专栏： hadoop

本文链接：https://blog.csdn.net/qq_40727267/article/details/101916908

版权

hadoop 专栏收录该内容

16 篇文章 2 订阅

订阅专栏

创建写

在这里插入图片描述

客户端通过DistributedFileSystem得到一个DFSClient对象，DFSClient会与Namenode建立RPC连接，之后通过调用create()方法在HDFS文件系统中创建一个新的空文件。Namenode首先会在文件系统目录树中的指定路径下添加一个新的文件，然后将创建新文件的操作记录到editlog中。在完成create()方法之后，会返回一个FSDataOutputStream对象，实际上是一个DFSOutputStream的装饰类，所以真正执行写操作的是DFSOutputStream
获取DFSOutputStream对象后，客户端通过调用DFSOutputStream.write()方法来写数据。DFSOutputStream首先会调用addBlock向Namenode申请一个新的空数据块，addBlock会返回一个LocateBlock对象（封装保存这个数据块的所有数据节点的位置信息）。拿到位置信息后，DFSOutputStream就可以建立数据流管道写数据了。
成功建立数据流管道之后，客户端就可以向数据流管道写数据。写入DFSOutputStream中的数据会先被缓存在数据流中，然后这些数据会被切分成一个一个的数据包（packet）通过数据流管道发送到所有的数据节点，待所有的数据节点都写入成功之后，会依次返回一个确认包。DFSOutputStream在确认所有的数据节点都写入成功之后，会将对应的数据包从缓存队列中删除。写满一个数据块之后，会调用addBlock()申请新的数据块，然后循环上述操作。
当客户端完成整个文件所有数据块的写操作之后，会调用close()方法关闭输出流，然后DistributedSystem调用complete()方法通知Namenode文件写完了。

容错

输出流中缓存的没有确认的数据包会重新加入到发送队列，这种机制确保了数据节点出现故障时不会丢失任何数据。
管道流中的Datanode发生故障时，输出流会为数据块申请一个新的时间戳，重新建立数据流管道。这样故障的Datanode上的时间戳就会过期，在故障恢复之后，由于时间戳不一致，该节点上的数据块便会被删除，保证了集群中所有数据块的正确性。
在重新建立数据流管道的时候，输出流会请求Namenode分配新的Datanode到数据流管道中，然后输出流会通知已经写过该数据块的Datanode将数据块复制到新的Datanode上，
输出流管道建立之后，输出流会向Namenode更新元数据。至此一个故障恢复流程就完成了。

追加写

调用DistributedFileSystem.append()方法打开一个已有的HDFS文件，append方法会获取最后一个数据块的位置信息，然后返回一个DFSOutputStream对象。
输出流会判断最后一个数据块是否已经写满了，如果没有写满会根据该数据块的位置信息建立数据流管道；如果写满了那么会调用addBlock向Namenode申请一个新的数据块之后建立数据流管道。
通过数据流管道写数据的流程与创建写类似。

b1gx

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HDFS写流程

创建写客户端通过DistributedFileSystem得到一个DFSClient对象，DFSClient会与Namenode建立RPC连接，之后通过调用create()方法在HDFS文件系统中创建一个新的空文件。Namenode首先会在文件系统目录树中的指定路径下添加一个新的文件，然后将创建新文件的操作记录到editlog中。在完成create()方法之后，会返回一个FSDataOutp...
复制链接

扫一扫

专栏目录