Hadoop源码分析（三）--------------job提交过程分析（3）之job的split过程

最新推荐文章于 2022-02-15 11:02:24 发布

小玉歌

最新推荐文章于 2022-02-15 11:02:24 发布

阅读量857

点赞数

分类专栏： hadoop源码分析文章标签：开发者开源源码软件阅读

本文链接：https://blog.csdn.net/u011332758/article/details/41575713

版权

现在让我们看一下job.split文件是怎么生成的，先看writeSplits（）函数的源码：

int maps =writeSplits(job, submitJobDir);

  private int writeSplits(org.apache.hadoop.mapreduce.JobContext job,
      Path jobSubmitDir) throwsIOException,
      InterruptedException,ClassNotFoundException {
    JobConf jConf =(JobConf)job.getConfiguration();
    int maps;
    if(jConf.getUseNewMapper()) {
      maps = writeNewSplits(job, jobSubmitDir);
    } else {
      maps = writeOldSplits(jConf, jobSubmitDir);
    }
    return maps;
 }

主要调用的是writerSplits函数，最后调用了 writeNew(Old)Splits(JobConf job, Path jobSubmitDir) 函数，它通过反射获取指定的inputformat，然后再通过调用inputformat的getSplits（）函数来进行分块的获取。实际分块在FileIputFormat类中实现了。FileSplit是InputSplit的一个实现。

从以下代码我们可以看出：

  private<T extends InputSplit>
  int writeNewSplits(JobContext job, Path jobSubmitDir) throwsIOException,
      InterruptedException,ClassNotFoundException {
    Configuration conf =job.getConfiguration();
    InputFormat<?, ?> input =
      ReflectionUtils.newInstance(job.getInputFormatClass(),conf);
 
    List<InputSplit> splits = input.getSplits(job);
    T[] array = (T[]) splits.toArray(newInputSplit[splits.size()]);
 
    // sort the splits into orderbased on size, so that the biggest

最低0.47元/天解锁文章

小玉歌

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop源码分析（三）--------------job提交过程分析（3）之job的split过程

现在让我们看一下job.split文件是怎么生成的，先看writeSplits（）函数的源码：int maps =writeSplits(job, submitJobDir); private int writeSplits(org.apache.hadoop.mapreduce.JobContext job, Path jobSubmitDir) throwsIOE
复制链接

扫一扫