1、HDFS写流程
(1)客户端通过对FileSystem.create() 对象创建建文件,DistributedFileSystem会创建输出流FSDataOutputStream。
(2)DistributedFileSystem 通过RPC远程调用名称节点,在文件系统的命名空间中创建一个新的文件,此时该文件中还没有相应的数据块。
(3)名称节会执行一些检查,比如文件是否已经存在、客户端是都有权限创建文件等。检查通过后,名称节点会构造一个新文件,并添加文件信息。如果检查不通过,文件创建失败会向客户端抛一个 IOException 异常。
(4)DistributedFileSystem利用DFSOutputStream来实例化FSDataOutputStream,返回给客户端,客户端使用这个输出流写入数据(new DFSDataOutputStream)。
了解:DFSOutputStream负责处理 DataNode 和 NameNode 之间的通信
(5)客户端向输出流FSDataOutputStream中写入的数据会被分成一个个的分包,这些分包被放入DFSOutputStream对象的内部队列“dataQueue”
了解:
1)启动线程DataStreamer,它存储dataQueue.wait队列阻塞等待接收读取到的数据。
数据:packet(64k)= chunk(512byte)+ chunksum (4byte)。chunk:数据校验的基