HDFS写数据流程

最新推荐文章于 2023-01-31 19:02:06 发布

Lin_1013

最新推荐文章于 2023-01-31 19:02:06 发布

阅读量149

点赞数

分类专栏：大数据导论作业文章标签： hdfs hadoop big data

本文链接：https://blog.csdn.net/Lin_1013/article/details/121037416

版权

大数据导论作业专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1.客户端通过调用分布式文件系统对象中的Great（）创建文件，分布式文件系统通过RPC调用的名称节点的文件系统命名空间创建一个新文件。

2.名称节点通过验证，确保请求用户拥有权限，新的文件不存在文件系统里。验证通过时名称节点会创造一个新的文件的记录。

如果创建失败，则IOException异常。

如果成功，分布式文件系统返回文件系统数据输出给客户端写数据。这时包含了一个数据流对象，客户端使用它来处理数据和名称两个节点的通信。

3.客户端调用FSD的Write（）函数。向对应的文件写入数据。

4. 当客户端开始写入文件的时候，客户端会将文件切分成多个 packets，并在内部以数据队列“data queue（数据队列）”的形式管理这些 packets，并向 namenode 申请 datanode列表，获取用来存储 replicas 的合适的 datanode 列表，列表的大小根据 namenode 中 replication的设定而定；
5.开始以 pipeline（管道）的形式将 packet 写入所有的 replicas 中。客户端把 packet 以流的方式写入第一个 datanode，该 datanode 把该 packet 存储之后，再将其传递给在此 pipeline中的下一个 datanode，直到最后一个 datanode。
6.最后一个 datanode 成功存储之后会返回一个 ack packet（确认队列），在 pipeline 里传递至客户端，在客户端的开发库内部维护着"ack queue"，成功收到 datanode 返回的 ackpacket 后会从"data queue"移除相应的 packet。
7.如果传输过程中，有某个 datanode 出现了故障，那么当前的 pipeline 会被关闭，出现故障的 datanode 会从当前的 pipeline 中移除，剩余的 block 会继续剩下的 datanode 中继续以 pipeline 的形式传输，同时 namenode 会分配一个新的 datanode，保持 replicas 设定的数量。
8.客户端完成数据的写入。

Lin_1013

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HDFS写数据流程

1.客户端通过调用分布式文件系统对象中的Great（）创建文件，分布式文件系统通过RPC调用的名称节点的文件系统命名空间创建一个新文件。2.名称节点通过验证，确保请求用户拥有权限，新的文件不存在文件系统里。验证通过时名称节点会创造一个新的文件的记录。如果创建失败，则IOException异常。如果成功，分布式文件系统返回文件系统数据输出给客户端写数据。这时包含了一个数据流对象，客户端使用它来处理数据和名称两个节点的通信。3.客户端调用FSD的Write（）函数。向对应的文件写入数据。4.
复制链接

扫一扫