以下是本人研究源代码成果, 此文僅献给我和我的小伙伴们,不足之处,欢迎斧正-------------------------------------------------致谢道格等人!
注:hadoop版本0.20.2,有童鞋表示看代码头晕,所以本文采用纯文字描述,哥还特意为你们把字体调调颜色噢 ^ o ^上一篇文章,我们一起讨论了DFSClient数据的校验和读取过程,下面我们一起讨论关于数据写入的详细过程,该过程对比前面,稍稍复杂一点点啦,
====================================================================================
--------------------------------------------------------------------------------------------------------------------------------------------
分析写入数据前,我们先弄清楚几个重量级的概念
Block数据块是数据写入的基本单位,Block大小默认为64MB
Block由若干个Packet数据包组成,Packet默认大小为64KB
Packet由若干个chunk组成,chunk是校验和的基本单元,一个chunk对应,chunk的数据=数据(512B)+校验和(4B)
-------------------------------------------------------------------------------------------------------------------------------------------------------------------
第一种创建OutputStream方式分析: DFClient.create();
public OutputStream create(String src,
分析写入数据前,我们先弄清楚几个重量级的概念
Block数据块是数据写入的基本单位,Block大小默认为64MB
Block由若干个Packet数据包组成,Packet默认大小为64KB
Packet由若干个chunk组成,chunk是校验和的基本单元,一个chunk对应,chunk的数据=数据(512B)+校验和(4B)
-------------------------------------------------------------------------------------------------------------------------------------------------------------------
第一种创建OutputStream方式分析: DFClient.create();
public OutputStream create(String src,
boolean overwrite
) throws IOException {
return
create(src, overwrite, defaultReplication, defaultBlockSize, null);
}
----------------------------------------------------------------------------------------------------------------------------------------------------------------
----------------------------------------------------------------------------------------------------------------------------------------------------------------
public OutputStream create(String src,
boolean overwrite,
short replication,
long blockSize,
Progressable progress
) throws IOException {
return create(src, overwrite, replication, blockSize, progress,
conf.getInt("io.file.buffer.size", 4096));
}
----------------------------------------------------------------------------------------------------------------------------------------------------------------
public OutputStream create(String src,
----------------------------------------------------------------------------------------------------------------------------------------------------------------
public OutputStream create(String src,
boolean overwrite,
short replication,
long blockSize,
Progressable progress,
int buffersize
) throws IOException {
return
create(src, FsPermission.getDefault(),
overwrite, replication, blockSize, progress, buffersize);
}
----------------------------------------------------------------------------------------------------------------------------------------------------------------
public OutputStream create(String src,
FsPermission permission,
boolean overwrite,
short replication,
long blockSize,
Progressable progress,
int buffersize
) throws IOException {
// 检查HDFS文件系统是否已经打开
// 检查HDFS文件系统是否已经打开
checkOpen();
if (permission == null) {
//如果创建写入文件夹时没有指定文件的权限,则采用系统默认的权限,可配置
//如果创建写入文件夹时没有指定文件的权限,则采用系统默认的权限,可配置
permission = FsPermission.getDefault();
}
FsPermission masked = permission.applyUMask(FsPermission.getUMask(conf));
LOG.debug(src + ": masked=" + masked);
//创建文件输出流 ,很关键的一步,初始化 DFSOutputStream
//创建文件输出流 ,很关键的一步,初始化 DFSOutputStream
OutputStream result =
new DFSOutputStream(src, masked,
overwrite, replication, blockSize, progress, buffersize,
conf.getInt("io.bytes.per.checksum", 512));
//将文件路径和输出流加入租约表中
//将文件路径和输出流加入租约表中
leasechecker.put(src, result);
return result;
}
create方法小结:创建输出流 DFSOutputStream然后将文件路径和输出流加入到租约表
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
/**
* 该构造方法会被DFSClient的create方法调用,
* 然后调用computePacketChunkSize方法来计算出Packet和Chunk的大小,
* 之后调用ClientProtocol的create方法来在NameNode的命令空间中创建了一个用于
* 接收DFSOutputStream中的数据文件,最后启动用于向DataNode写入数据的Streamer线程
*
*/
DFSOutputStream(String src, FsPermission masked, boolean overwrite,
short replication, long blockSize, Progressable progress,
int buffersize, int bytesPerChecksum) throws IOException {
//
初始化校验和相关对象
this(src, blockSize, progress, bytesPerChecksum);
//计算发往数据节点的数据包能够包含多少个检验块,以及包的长度
computePacketChunkSize(writePacketSize, bytesPerChecksum);
try {
//执行远程过程在namenode上创建一个新的处于构建状态的文件
//执行远程过程在namenode上创建一个新的处于构建状态的文件
namenode.create(
src, masked, clientName, overwrite, replication, blockSize);
} catch(RemoteException re) {
throw re.unwrapRemoteException(AccessControlException.class,
NSQuotaExceededException.class,
DSQuotaExceededException.class);
}
//非常重要的一步:启动数据发送器。开始写入数据
//非常重要的一步:启动数据发送器。开始写入数据
streamer.start();
} ------------------------------------------------------------------------------------------------------------------------------------------------------------------------- /**
* 私有的构造方法,如果指定的bytesPerChecksum小于1或者blockSize不能整除bytesPerChecksum,
* 则会抛出相应的异常,而且在方法中完成了对DataChecksum校验和对象的初始化工作
*