【学习历程】07 Hadoop之HDFS读写流程

最新推荐文章于 2021-11-29 22:53:43 发布

LALALAND__

最新推荐文章于 2021-11-29 22:53:43 发布

阅读量189

点赞数 1

分类专栏： BigData大数据文章标签： hadoop

本文链接：https://blog.csdn.net/Aries1Chan/article/details/119960221

版权

24 篇文章 2 订阅

订阅专栏

在这里插入图片描述
创建文件：

HDFS client向HDFS写入数据，先调用DistributedFileSystem. create()
RPC调用namenode的create()，会在HDFS目录树中指定的路径，添加新文件，并将操作记录在edits.log中。namenode.create()方法执行完后，返回一个FSDataOutputStream，它是DFSOutputStream的包装类。

建立数据流管道pipeline:

向数据流管道写当前块的数据:

写数据时，先将数据写入一个检验块chunk中，写满512字节后，对此chunk计算校验和checksum值(4字节)
然后将chunk及对应校验和写入packet中，一个packet是64KB
随着源源不断的带校验和的chunk写入packet，当packet写满后，将packet写入dataqueue数据队列中
packet从队列中取出，沿pipeline发送到dn1，再从dn1发送到dn2，再从dn2发送到dn3
同时，此packet会保存一份到一个确认队列ack queue中
packet到达最后一个datanode即dn3后，做校验，将校验结果逆着pipeline方向回传到客户端，具体是校验结果从dn3传到dn2，dn2也会做校验，校验结果再传到dn1，dn1也做校验，结果再传回客户端
客户端根据校验结果，如果“成功”，则将保存在ack queue中的packet删除；如果失败，则将packet取出，重新放回到data queue末尾，等待再次沿pipeline发送
如此，将block中的一个数据一个个packet发送出去；当此block发送完毕，即dn1、dn2、dn3都接受了blk1的完整的副本，那么三个dn分别RPC调用namenode的blockReceivedAndDeleted()，namenode会更新内存中block与datanode的对应关系(比如dn1上多了一个blk1副本)

关闭dn1. dn2. dn3构建的pipeline，文件还有下一个块时，再从4开始，直到文件全部数据写完：

问题描述：
假设说当前构建的pipeline是dn1、dn2、 dn3构成的，当传输数据的过程中，dn2挂了或通信不畅，则当前pipeline中断，HDFS会如何做?

解决：

先将ack queue中的所有packet全部放回到data queue中
客户端RPC调用namenode的updateBlockForPipeline()，为当前block(假设是blk1)生成新的版本比如ts1 (本质是时间戳)
故障dn2会从pipeline中删除
DFSOutputStream再RPC调用namenode的getAdditionalDatanode()，让namenode分配新的datanode，比如是dn4
输出流将原dn1、dn3与新的dn4组成新的管道，他们上边的blk1版本设置为新版本ts1
由于新添加的dn4上没有blk1的数据，客户端告知dn1或dn3，将其上的blk1的数据拷贝到dn4上
新的数据管道建立好后，DFSOutputStream调用updatePipeline()更新namenode元数据
至此，pipeline恢复，客户端按正常的写入流程，完成文件的上传
故障datanode重启后，namenode发现它上边的block的blk1的时间戳是老的，会让datanode将blk1删除掉

文件读取流程如下：
在这里插入图片描述

客户端通过DistributedFileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。
挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据。
DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以Packet为单位来做校验）。
客户端以Packet为单位接收，先在本地缓存，然后写入目标文件。