DFSClient技术内幕(数据的写入--OutputStream的初始化)

    以下是本人研究源代码成果, 此文僅献给我和我的小伙伴们,不足之处,欢迎斧正-------------------------------------------------致谢道格等人!
注:hadoop版本0.20.2,有童鞋表示看代码头晕,所以本文采用纯文字描述,哥还特意为你们把字体调调颜色噢 ^ o ^
上一篇文章,我们一起讨论了DFSClient数据的校验和读取过程,下面我们一起讨论关于数据写入的详细过程,该过程对比前面,稍稍复杂一点点啦,
 
====================================================================================
--------------------------------------------------------------------------------------------------------------------------------------------
分析写入数据前,我们先弄清楚几个重量级的概念
Block数据块是数据写入的基本单位,Block大小默认为64MB
Block由若干个Packet数据包组成,Packet默认大小为64KB
Packet由若干个chunk组成,chunk是校验和的基本单元,一个chunk对应,chunk的数据=数据(512B)+校验和(4B)

-------------------------------------------------------------------------------------------------------------------------------------------------------------------
第一种创建OutputStream方式分析: DFClient.create();
public OutputStream create(String src, 
                             boolean overwrite
                             ) throws IOException {
     return  create(src, overwrite, defaultReplication, defaultBlockSize, null);
  }
 ----------------------------------------------------------------------------------------------------------------------------------------------------------------
public OutputStream create(String src, 
                             boolean overwrite, 
                             short replication,
                             long blockSize,
                             Progressable progress
                             ) throws IOException {
      return create(src, overwrite, replication, blockSize, progress,
        conf.getInt("io.file.buffer.size", 4096));
  }
 ----------------------------------------------------------------------------------------------------------------------------------------------------------------
  public OutputStream create(String src,
      boolean overwrite,
      short replication,
      long blockSize,
      Progressable progress,
      int buffersize
      ) throws IOException {
     return  create(src, FsPermission.getDefault(),
        overwrite, replication, blockSize, progress, buffersize);
  }
  ----------------------------------------------------------------------------------------------------------------------------------------------------------------
public OutputStream create(String src, 
                             FsPermission permission,
                             boolean overwrite, 
                             short replication,
                             long blockSize,
                             Progressable progress,
                             int buffersize
                             ) throws IOException {
    // 检查HDFS文件系统是否已经打开  
    checkOpen();
    if (permission == null) {
    //如果创建写入文件夹时没有指定文件的权限,则采用系统默认的权限,可配置 
      permission = FsPermission.getDefault();
    }
     
    FsPermission masked = permission.applyUMask(FsPermission.getUMask(conf));
    LOG.debug(src + ": masked=" + masked);
    //创建文件输出流 ,很关键的一步,初始化 DFSOutputStream
      OutputStream result =  new DFSOutputStream(src, masked,
        overwrite, replication, blockSize, progress, buffersize,
        conf.getInt("io.bytes.per.checksum", 512));
    //将文件路径和输出流加入租约表中 
     leasechecker.put(src, result);
    return result;
  }  
create方法小结:创建输出流 DFSOutputStream然后将文件路径和输出流加入到租约表
 

------------------------------------------------------------------------------------------------------------------------------------------------------------------------

    /**
     * 该构造方法会被DFSClient的create方法调用,
     * 然后调用computePacketChunkSize方法来计算出Packet和Chunk的大小,
     * 之后调用ClientProtocol的create方法来在NameNode的命令空间中创建了一个用于
     * 接收DFSOutputStream中的数据文件,最后启动用于向DataNode写入数据的Streamer线程
     * 
     */
    DFSOutputStream(String src, FsPermission masked, boolean overwrite,
        short replication, long blockSize, Progressable progress,
        int buffersize, int bytesPerChecksum) throws IOException {
    // 初始化校验和相关对象
      this(src, blockSize, progress, bytesPerChecksum);
    //计算发往数据节点的数据包能够包含多少个检验块,以及包的长度
      computePacketChunkSize(writePacketSize, bytesPerChecksum);
    
      try {
       //执行远程过程在namenode上创建一个新的处于构建状态的文件 
        namenode.create(
            src, masked, clientName, overwrite, replication, blockSize);
      } catch(RemoteException re) {
        throw re.unwrapRemoteException(AccessControlException.class,
                                       NSQuotaExceededException.class,
                                       DSQuotaExceededException.class);
      }
      //非常重要的一步:启动数据发送器。开始写入数据 
      streamer.start();
    } 
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
    /**
     * 私有的构造方法,如果指定的bytesPerChecksum小于1或者blockSize不能整除bytesPerChecksum,
     * 则会抛出相应的异常,而且在方法中完成了对DataChecksum校验和对象的初始化工作
     * 
     
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值