HDFS 写数据流程

最新推荐文章于 2024-05-12 15:42:36 发布

qq_53294028

最新推荐文章于 2024-05-12 15:42:36 发布

阅读量966

点赞数 1

分类专栏：大数据

本文链接：https://blog.csdn.net/qq_43277087/article/details/110120157

版权

大数据专栏收录该内容

7 篇文章 0 订阅

订阅专栏

在这里插入图片描述

步骤文字说明

1、使用 HDFS 提供的客户端 Client，向远程的 namenode 发起 RPC 请求
2、namenode 会检查要创建的文件是否已经存在，创建者是否有权限进行操作，成功则会为文件创建一个记录，否则会让客户端抛出异常；
3、当客户端开始写入文件的时候，客户端会将文件切分成多个 packets，并在内部以数据队列“data queue（数据队列）”的形式管理这些 packets，并向 namenode 申请 datanode列表，获取用来存储 replicas 的合适的 datanode 列表，列表的大小根据 namenode 中 replication的设定而定；
4、开始以 pipeline（管道）的形式将 packet 写入所有的 replicas 中。客户端把 packet 以流的方式写入第一个 datanode，该 datanode 把该 packet 存储之后，再将其传递给在此 pipeline中的下一个 datanode，直到最后一个 datanode，这种写数据的方式呈流水线的形式。
5、最后一个 datanode 成功存储之后会返回一个 ack packet（确认队列），在 pipeline 里传递至客户端，在客户端的开发库内部维护着"ack queue"，成功收到 datanode 返回的 ackpacket 后会从"data queue"移除相应的 packet。
6、如果传输过程中，有某个 datanode 出现了故障，那么当前的 pipeline 会被关闭，出现故障的 datanode 会从当前的 pipeline 中移除，剩余的 block 会继续剩下的 datanode 中继续以 pipeline 的形式传输，同时 namenode 会分配一个新的 datanode，保持 replicas 设定的数量。
7、客户端完成数据的写入后，会对数据流调用 close()方法，关闭数据流；
8、只要写入了 dfs.replication.min（最小写入成功的副本数）的复本数（默认为 1），写操作就会成功，并且这个块可以在集群中异步复制，直到达到其目标复本数（dfs.replication的默认值为 3），因为 namenode 已经知道文件由哪些块组成，所以它在返回成功前只需要等待数据块进行最小量的复制。

qq_53294028

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
HDFS 写数据流程

步骤文字说明1、使用 HDFS 提供的客户端 Client，向远程的 namenode 发起 RPC 请求2、namenode 会检查要创建的文件是否已经存在，创建者是否有权限进行操作，成功则会为文件创建一个记录，否则会让客户端抛出异常；3、当客户端开始写入文件的时候，客户端会将文件切分成多个 packets，并在内部以数据队列“data queue（数据队列）”的形式管理这些 packets，并向 namenode 申请 datanode列表，获取用来存储 replicas 的合适的 datan..
复制链接

扫一扫