Hadoop MapReduce之ReduceTask任务执行(五)

原创 2013年12月05日 15:30:43
  本节分析ReduceTask的最后一个阶段:reduce,经历了copy、sort后,reduce的输入数据就准备好了,reduce数据输入由Reducer.Context提供,该Context封装了sort阶段的迭代器,可以对内存和磁盘的KV进行迭代,这部分需要注意两个大的循环:1、对KEY的循环由Reducer类实现,具体参考run函数 2、在自定义的reduce函数中对VALUE的循环。在自定义的reduce函数中会处理迭代器中的数据,当迭代器中的数据没有的时候就意味着需要处理下一个KEY了,reduce函数的输出会直接输出目的地如HDFS中,具体位置是可以自定义的。下面我们先看Reducer中run函数是如何实现KEY循环的
  public void run(Context context) throws IOException, InterruptedException {
    setup(context);
    while (context.nextKey()) {//循环读取KEY
      reduce(context.getCurrentKey(), context.getValues(), context);//进入自定义的reduce函数
    }
    cleanup(context);
  }
nextKey函数的逻辑如下:
    /** Start processing next unique key. */
  public boolean nextKey() throws IOException,InterruptedException {
    while (hasMore && nextKeyIsSame) {//读取新KEY时nextKeyIsSame为假
      nextKeyValue();
    }
    if (hasMore) {
      if (inputKeyCounter != null) {
        inputKeyCounter.increment(1);
      }
      return nextKeyValue();//如果为新的KEY,则会预读一条KV
    } else {
      return false;
    }
  }
  KV的预读逻辑如下
  public boolean nextKeyValue() throws IOException, InterruptedException {
    if (!hasMore) {
      key = null;
      value = null;
      return false;
    }
    //读取新KEY的时候firstValue为真,此时nextKeyIsSame为假
    //当读取相同KEY的非首条记录时,firstValue会置为假
    firstValue = !nextKeyIsSame;
    //将KV读取到buffer中
    DataInputBuffer next = input.getKey();
    currentRawKey.set(next.getData(), next.getPosition(), 
                      next.getLength() - next.getPosition());
    buffer.reset(currentRawKey.getBytes(), 0, currentRawKey.getLength());
    key = keyDeserializer.deserialize(key);
    next = input.getValue();
    buffer.reset(next.getData(), next.getPosition(), next.getLength());
    value = valueDeserializer.deserialize(value);
    //再读取一条,用于判断下一条的KEY是否相同,来设置nextKeyIsSame
    hasMore = input.next();
    if (hasMore) {
      next = input.getKey();
      nextKeyIsSame = comparator.compare(currentRawKey.getBytes(), 0, 
                                         currentRawKey.getLength(),
                                         next.getData(),
                                         next.getPosition(),
                                         next.getLength() - next.getPosition()
                                         ) == 0;
    } else {
      nextKeyIsSame = false;
    }
    inputValueCounter.increment(1);
    return true;
  }
KEY判断完毕,如果确定还有数据则进入到自定义的reduce函数中,这里我们以WordCount为例,由于函数中会对同一个KEY的相同VALUE进行迭代,因此会传入Iterable(第二个参数),该参数封装了org.apache.hadoop.mapreduce.ReduceContext.ValueIterator
	protected void reduce(Text key, java.lang.Iterable<IntWritable> arg1,
			Context context) throws IOException, InterruptedException {
		Iterator<IntWritable> iterator = arg1.iterator();//获得迭代器
		int sum = 0;
		while (iterator.hasNext()) {//判断是否有下一个VALUE
			sum += iterator.next().get();//自定义操作
		}
		context.write(key, new IntWritable(sum));//写出操作
	};	
在对VALUE的迭代中每读取一次VALUE,都会判断下一个VALUE是否相同,以设置nextKeyIsSame的值,当相同KEY的VALUE有多条时,一旦nextKeyIsSame为假,那么证明需要处理下一个KEY了。
  protected class ValueIterator implements Iterator<VALUEIN> {
    @Override
    public boolean hasNext() {
      return firstValue || nextKeyIsSame;
    }


    @Override
    public VALUEIN next() {
      // 如果为首条记录则直接返回,注意此时firstValue状态变化
      if (firstValue) {
        firstValue = false;
        return value;
      }
      // if this isn't the first record and the next key is different, they
      // can't advance it here.
      if (!nextKeyIsSame) {
        throw new NoSuchElementException("iterate past last value");
      }
      // 读取下一条KV,具体逻辑见上面nextKeyValue的分析
      try {
        nextKeyValue();
        return value;
      } catch (IOException ie) {
        throw new RuntimeException("next value iterator failed", ie);
      } catch (InterruptedException ie) {
        // this is bad, but we can't modify the exception list of java.util
        throw new RuntimeException("next value iterator interrupted", ie);        
      }
    }


    @Override
    public void remove() {
      throw new UnsupportedOperationException("remove not implemented");
    }
    
  }
  当reduce阶段输出时,如果目的地是HDFS,则会直接写入,此时HDFS相当于服务端,reduce任务相当于客户端,也是调用FSDataOutputStream来写出的,这里就不再多分析了。

相关文章推荐

MapReduce源码分析之MapTask分析(二)

MapReduce源码分析之MapTask详解的后半段文章。在分析过程中我们知道了MapTask是如何使用循环缓存区管理数据,知道了数据在缓存不下是如何做spill处理的,spill输出的数据格式,c...
  • chlaws
  • chlaws
  • 2014年08月04日 22:21
  • 4618

关于java.util.NoSuchElementException错误的一则例子

写了一个从A文件复制到B文件的例子,其中要求去掉重复的行。于是想到了Set,这本来是很容易的事情,结果在向外写数据时抱错java.util.NoSuchElementException网络上反复查证也...
  • ppact
  • ppact
  • 2007年07月13日 15:14
  • 92460

Hadoop MapReduce之ReduceTask任务执行(三)

在reduce端的文件拷贝阶段,会将数据放入内存或直接放入磁盘中,如果文件全部拷贝完再进行合并那样必然降低作业效率,所以在拷贝进行到一定阶段,数据的合并就开始了,负责该工作的有两个线程:InMemFS...
  • lihm0_1
  • lihm0_1
  • 2013年12月02日 14:23
  • 1109

Hadoop MapReduce之ReduceTask任务执行(四):排序与合并

上一篇讲了reduce如何把map输出下载到本地的过程,这个过程中包含了文件合并操作,本文主要讲reduce的下一个阶段:排序。reduce端的合并单位是Segment,在对Segment合并的过程中...

hadoop-mapreduce中reducetask运行分析

ReduceTask的运行 Reduce处理程序中需要执行三个类型的处理, 1.copy,从各map中copy数据过来 2.sort,对数据进行排序操作。 3.reduce,执行业务逻辑的处理...

Hadoop MapReduce 任务执行流程源代码详细解析

目录 1 引言  1.1 目的  1.2 读者范围 2 综述 3 代码详细分析  3.1 启动Hadoop集群  3.2 JobTracker启动以及Job的初始化  3.3 Task...
  • RiverM
  • RiverM
  • 2011年09月27日 15:01
  • 14283

Hadoop MapReduce之MapTask任务执行(二)

(为了简单起见,我们这里分析官方文档中使用的WordCount程序)   上一篇我们已经看到自己的map函数是如何被调用的,这是一个循环调用的过程,这里我们分析下,从KV读入到KV写出的过程,通常我们...
  • lihm0_1
  • lihm0_1
  • 2013年11月14日 18:16
  • 1567

Hadoop MapReduce之MapTask任务执行(四)

Map任务执行完前会对spill文件进行合并操作,每次spill都会生成一个spill文件,在传向reduce前,map会把这些文件合并为一个文件,文件合并不是一次性把所有文件合并的,每次合并的个数可...
  • lihm0_1
  • lihm0_1
  • 2013年11月23日 14:27
  • 1271

hadoop 里执行 MapReduce 任务的几种常见方式

说明: 测试文件: 1 echo -e "aa\tbb \tcc\nbb\tcc\tdd" > 3.txt ...
  • jeek566
  • jeek566
  • 2013年07月04日 10:48
  • 508

hadoop执行mapreduce任务,能够map,不能reduce,Shuffle阶段报错

第一次运行: [root@sjfx jar]# hadoop jar /home/tangzw/jar/GameLoginLogAnalyzeA.jar /tangzw/input ...
  • tzw1992
  • tzw1992
  • 2014年05月15日 15:39
  • 2893
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Hadoop MapReduce之ReduceTask任务执行(五)
举报原因:
原因补充:

(最多只允许输入30个字)