我们再来分析一下写数据流程
1. 由前可知DistributedFileSystem::create和DistributedFileSystem::append方法都会返回FSDataOutputStream对象,而其实返回的都是FSDataOutputStream的子类DFSClient::DFSOutputStream
2. 当我们调用write时,其实我们调用的是DFSOutputStream的write方法,而DFSOutputStream继承了FSOutputSummer类,该类实现了所有的OutputStream接口的方法,但有一个抽象函数writeChunk,这个是由DFSOutputStream实现的
3. 所以当我们调用FSDataOutputStream::write方法时,其实我们调用的是FSOutputSummer::write的实现
a. 自动缓存write提交的buf数组,并且每512字节做一次crc32的checksum
b. 写满一个chunk之后,将chunk加入到大小为64k的packet中
c. 如果当前的packet写满了,则将改packet放入dataQueue中,但前提是dataQueue和ackQueue中的packet的个数总共不能超过50个
4. 这个时候write函数调用就返回了,但数据其实并未真正写到HDFS上,写HDFS这个工作是由DFSOutputStream::DataStreamer线程来执行的,具体的流程为:
a. 调用namenode.addBlock获取具体写那个数据块即LocatedBlock
b. 根据LocatedBlock中block存在的所有datanode节点,建立写数据的pipeline,对于客户端来说就是建立写数据的blockStream和接收恢复的blockReplyStream
c. 从dataQueue中取一个packet,用blockStream将其写到pipeline中,并将这个写完的packet放入ackQueue中等待确认
写数据从blockStream中发送出去,协议如下&#x