1、HDFS读流程
1、首先调用FileSystem对象的open()方法,其实获取的是一个DistributedFileSystem的实例。
2、DistributedFileSystem用RPC调用元数据节点,得到文件的数据块信息,对于每一个数据块,元数据节点返回保存数据块的数据节点的地址。
3、会返回一个FSDataInputStream对象,可以方便的管理datanode和namenode数据流。
4、客户端调用 FSDataInputStream对象的read方法,DFSInputStream就会找出离客户端最近的datanode并连接datanode。数据从datanode流向客户端。
5、如果第一个block块的数据读完了,就会关闭指向第一个block块的datanode连接,(会记录失败的块+Datanode信息,下次就不会读取)接着读取下一个block块。
6、当客户端读取完毕数据的时候,调用FSDataInputStream的close()函数。
2、HDFS写流程
1、客户端通过调用 DistributedFileSystem 的create方法,创建一个新的文件
2、通过 RPC(远程过程调用)调用 NameNode,去创建一个没有blocks关联的新文件。创建前,NameNode 会做各种校验,比如文件是否存在,客户端有无权限去创建等。如果校验通过,NameNode 就会记录下新文件,否则就会抛出IO异常
3、返回FSDataOutputStream,执行write()方法
4、会将第一个块写入第一个DataNode,第一个DataNode写完传给第二个节点,第二个写完传给第三节点
5、当第三个节点写完返回一个ack packet给第二个节点,第二个返回一个ack packet给第一个节点,第一个节点返回ack packet给FSDataOutputStream对象,意思标识第一个块写完,副本数为3;然后剩余的块依次这样写。
6、当向文件写入数据完成后,Client调用FSDataOutputStream.close()方法,关闭输出流,flush缓存区的数据包。
7、再调用FileSystem.complete()方法,告诉NameNode节点写入成功。