HDFS读写数据流程

最新推荐文章于 2024-06-11 05:30:00 发布

置顶鄙人王道长

最新推荐文章于 2024-06-11 05:30:00 发布

阅读量545

点赞数

分类专栏： Hadoop 文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/wangsl754/article/details/107368874

版权

1 篇文章 0 订阅

订阅专栏

在这里插入图片描述

在这里插入图片描述

Distributed FileSystem返回一个FSDataInputStream对象给客户端以便读取数据（FSDataInputStream中封装着DFSInputStream对象，该对象管理着namenode与datanode的I/O），接着，客户端对这个对象调用read方法；
存储着文件起始几个块的datanode地址的DFSInputStream随机连接离文件第一个块最近的datanode，通过对数据流反复调用read()方法，可以将数据从datanode传输到客户端；

在这里插入图片描述

到达快的末端时，DFSInputStream就会关闭与datanode的连接，然后寻找下一个块最佳的datanode。所有这些过程对客户端都是透明的，在客户看来它就是一直在读取一个连续的流；
客户端以packet为单位接收数据，先是缓存在本地，然后写入目标文件，一旦读取数据完成，就对FSDataInputStream调用close()方法。

客户端通过对DistributedFileSystem调用create方法来新建文件，DistributedFileSystem对namenode创建一个RPC调用，在系统的命名空间中创建一个新文件，此时该文件中还没有相应的数据块；
namenode执行各种检查以确保这个文件不存在以及客户端有新建文件的权限。如果这些检查能够通过，namenode就会为创建新文件记录一条记录；否则，就向客户端抛出一个IOExeception对象；
DistributedFileSystem向namenode申请上传第一个Block；namenode向客户端返回可用的datanode列表；

在这里插入图片描述

DistributedFileSystem向客户端返回一个FSDataOutputStream对象，由此客户端开始向datanode写入数据。客户端通过FSDataOutputStream向dn1请求上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。dn1、dn2、dn3逐级应答客户端

。

在这里插入图片描述

在客户端写入数据时，DFSOutputStream将数据分成一个个的数据包，并写入数据队列；客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。

在这里插入图片描述

文章已收录于https://github.com/wangsl123/dzblog，欢迎start。微信关注【鄙人王道长】，也可第一时间看到文章。

在这里插入图片描述

关注

专栏目录