libhdfs源码分析（4）

vinowan

于 2012-04-09 12:39:22 发布

阅读量610

点赞数

本文链接：https://blog.csdn.net/vinowan/article/details/7440408

版权

这篇博客详细分析了HDFS的写数据流程，从DFSOutputStream的write方法到DataStreamer线程的工作，包括自动缓存、chunk组装、packet处理以及与NameNode的交互。还解析了DataTransferProtocol的写数据协议，包括版本号、操作符、block信息、pipeline细节和校验和头。

摘要由CSDN通过智能技术生成

我们再来分析一下写数据流程

1. 由前可知DistributedFileSystem::create和DistributedFileSystem::append方法都会返回FSDataOutputStream对象，而其实返回的都是FSDataOutputStream的子类DFSClient::DFSOutputStream
2. 当我们调用write时，其实我们调用的是DFSOutputStream的write方法，而DFSOutputStream继承了FSOutputSummer类，该类实现了所有的OutputStream接口的方法，但有一个抽象函数writeChunk，这个是由DFSOutputStream实现的
3. 所以当我们调用FSDataOutputStream::write方法时，其实我们调用的是FSOutputSummer::write的实现
a. 自动缓存write提交的buf数组，并且每512字节做一次crc32的checksum
b. 写满一个chunk之后，将chunk加入到大小为64k的packet中
c. 如果当前的packet写满了，则将改packet放入dataQueue中，但前提是dataQueue和ackQueue中的packet的个数总共不能超过50个
4. 这个时候write函数调用就返回了，但数据其实并未真正写到HDFS上，写HDFS这个工作是由DFSOutputStream::DataStreamer线程来执行的，具体的流程为：
a. 调用namenode.addBlock获取具体写那个数据块即LocatedBlock
b. 根据LocatedBlock中block存在的所有datanode节点，建立写数据的pipeline，对于客户端来说就是建立写数据的blockStream和接收恢复的blockReplyStream
c. 从dataQueue中取一个packet，用blockStream将其写到pipeline中，并将这个写完的packet放入ackQueue中等待确认

写数据从blockStream中发送出去，协议如下&#x