HDFS读写流程

大大大大肉包

已于 2022-09-14 17:46:51 修改

阅读量2.4k

点赞数 1

分类专栏： HDFS学习文章标签： hdfs 大数据 hadoop

于 2022-09-10 13:46:36 首次发布

本文链接：https://blog.csdn.net/qq_42456324/article/details/126795897

版权

HDFS学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

HDFS的读数据流程

1.客户端向NameNode请求读文件，NameNode通过查询元数据，找到文件块所在的DataNode地址，并返回地址给客户端
2.挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据
3.DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以packet为单位校验）
4.客户端以packet为单位接收，先在本地缓存，然后写入目标文件
5.关闭资源

HDFS的写数据流程

1.首先客户端向NameNode请求上传文件
2.然后NameNode检查目录树是否可以创建文件（检查权限——是否允许上传，检查目录结构是否存在）。当都通过的时候响应客户端，反馈可以上传文件
3.客户端接收到可以上传文件的允许后，切分Block块，向NameNode请求上传第一个Block，上传到哪几个DataNode
4.NameNode进行计算，选择副本存储节点，第一个选择的是本地节点，第二个选择的是其他机架的一个节点，第三个是其他机架的另一个节点（默认三个副本存储节点）。并把这三个节点返回给客户端（dn1、dn2、dn3）
5.客户端拿到这三个节点后，创建一个流，向离的最近的一个节点（dn1）进行请求建立Block传输通道，而最近的节点（dn1）会向另外的节点（dn2）进行请求建立通道，另外的节点（dn2）会向第三个节点请求传输通道（dn3）
6.三个节点接收到请求建立通道后，逐一进行应答客户端
7.客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以packet为单位，dn1收到一个packet后就会复制一份并传给dn2，dn2传给dn3
8.最后一个datanode成功存储之后会返回一个ack数据包，在pipeline里传递至客户端，在客户端的内部维护着"ack queue"，会将返回的ack进行对比，只要有一个DataNode的ack能匹配上，就认为本次写入是成功的。
9.当一个 Block 传输完成之后，客户端再次请求 NameNode 上传第二个 Block 的服务器。（重复执行 3-7 步）
10.传输完毕之后，客户端关闭流资源，并且会告诉hdfs数据传输完毕，然后hdfs收到传输完毕就恢复元数据

DataNode写入数据失败处理流程

pipeline被关闭，在确认队列中剩下的包会被添加进数据队列的起始位置上，以至于在失败的节点下游的任何节点都不会丢失任何的包。
之后与NameNode练习后，当前在一个好的DataNode会联系NameNode，给失败节点上还未写完的块生成一个新的标识ID，以至于如果这个失败的DataNode不久后恢复了，这个不完整的块会被删除。
失败节点从pipeline中移除，之后剩下来好的DataNode会组成一个新的pipeline，剩下的这些块(刚刚放进数据队列队首的包)会继续写进pipeline中好的DataNode中。
最后，NameNode注意到备份数小于规定的备份数，它就安排在另一个节点上创建完成备份，直接从已有的块中复制就好了。直到满足了备份数。如果有多个节点写入失败了，如果满足了最小备份数的设置，写入也将成功，之后剩下的备份会被集群异步的执行备份，直到满足了备份数。