Hadoop源码分析(三)--------------job提交过程分析(3)之job的split过程

现在让我们看一下job.split文件是怎么生成的,先看writeSplits()函数的源码:

int maps =writeSplits(job, submitJobDir);

  private int writeSplits(org.apache.hadoop.mapreduce.JobContext job,
      Path jobSubmitDir) throwsIOException,
      InterruptedException,ClassNotFoundException {
    JobConf jConf =(JobConf)job.getConfiguration();
    int maps;
    if(jConf.getUseNewMapper()) {
      maps = writeNewSplits(job, jobSubmitDir);
    } else {
      maps = writeOldSplits(jConf, jobSubmitDir);
    }
    return maps;
 }


主要调用的是writerSplits函数,最后调用了 writeNew(Old)Splits(JobConf job, Path jobSubmitDir) 函数,它通过反射获取指定的inputformat,然后再通过调用inputformat的getSplits()函数来进行分块的获取。实际分块在FileIputFormat类中实现了。FileSplit是InputSplit的一个实现。

从以下代码我们可以看出:

  private<T extends InputSplit>
  int writeNewSplits(JobContext job, Path jobSubmitDir) throwsIOException,
      InterruptedException,ClassNotFoundException {
    Configuration conf =job.getConfiguration();
    InputFormat<?, ?> input =
      ReflectionUtils.newInstance(job.getInputFormatClass(),conf);
 
    List<InputSplit> splits = input.getSplits(job);
    T[] array = (T[]) splits.toArray(newInputSplit[splits.size()]);
 
    // sort the splits into orderbased on size, so that the biggest
 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值