HDFS读写文件流程

最新推荐文章于 2024-04-28 21:45:00 发布

Admin_ghost

最新推荐文章于 2024-04-28 21:45:00 发布

阅读量997

点赞数

分类专栏：云计算文章标签： hdfs 储存器大数据

本文链接：https://blog.csdn.net/qq_54431167/article/details/118240912

版权

云计算专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、基础概念

block

文件上传前需要分块（block），一般为128MB。

块太小：寻址时间占比过高。块太大：Map任务数太少，作业执行速度变慢。

packet

packet是client端向DataNode，或DataNode的PipLine之间传数据的基本单位，默认64KB。

chunk

chunk是client向DataNode，或DataNode的PipLine之间进行数据校验的基本单位，默认512Byte，因为用作校验，故每个chunk需要带有4Byte的校验位。所以实际每个chunk写入packet的大小为516Byte。

HDFS读写文件流程

二、读文件流程

1、client端发送读文件请求（通过Distributed FileSystem向NameNode请求下载文件）给namenode，如果文件不存在，返回错误信息，否则，将该文件对应的block及其所在datanode位置发送给client

2、client收到文件位置信息后，挑选一台DataNode（==就近原则，然后随机==）服务器，建立socket连接并行获取数据。

3、DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以packet为单位来做校验）。

4、客户端以packet为单位接收，先在本地缓存，然后写入目标文件。

三、写文件流程

1、客户端向NameNode发出写文件请求。

2、NameNode检查权限、存储文件是否已存在等信息，如果已存在，直接返回错误信息。确认无误后返回允许存储的响应（包括第一个Block要放在哪个DataNode哪个的地址的信息），最后将操作写入EditLog。

3、Clinet将要存储的数据按128MB切分成若干块

4、Clinet得到NameNode的响应，打开文件输出流，向第一个DataNode请求打开管道，DN1接受的信息后继续通知DN2，DN2接受到DN1的信息后通知DN3,DN3接受到信息后确认没有更多副本了，向DN2返回响应信息，DN2获取到DN3的响应后向DN1返回响应，DN1得到响应后向Clinet返回响应。

5、Clinet获得响应后，确认pipeline（管线，管线上每个节点都能收到相同的数据流）已开通，开始写入数据。

并不是写好一个块或一整个文件后才向后分发，而是同时进行:

客户端跟dn交互的时候只个一个DN服务节点交互，然后有这个DN服务与下一个DN服务建立scoket，在由下一个DN与下下个DN服务建立scoket，这个过程叫pipeline管道模式。

当dn收到了完整的块后，将向DN服务汇报心跳，提交块信息。同时客户端还在上传第二个块的信息。当客户的提交最后一个块的时候，其实DN服务已经把之前的块信息完成了心跳。这个过程也是时间重叠的技术，不会浪费时间效率。

6、clinet确认block1完成传输后，向NameNode发送请求，确认block1已存入，NN更新自己的Fsimage，并返回block2的存储地址

7、重复以上操作，直到所有block都存入。

Admin_ghost

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
HDFS读写文件流程

一、基础概念block文件上传前需要分块（block），一般为128MB。块太小：寻址时间占比过高。块太大：Map任务数太少，作业执行速度变慢。packetpacket是client端向DataNode，或DataNode的PipLine之间传数据的基本单位，默认64KB。chunkchunk是client向DataNode，或DataNode的PipLine之间进行数据校验的基本单位，默认512Byte，因为用作校验，故每个chunk需要带有4Byte的校验位。所以实际每个ch
复制链接

扫一扫