Reduce Task的学习笔记

最新推荐文章于 2024-09-18 14:36:17 发布

Android路上的人

最新推荐文章于 2024-09-18 14:36:17 发布

阅读量4.6k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： Hadoop MapReduce MapReduce源码分析文章标签： hadoop 分布式计算设计源码结构

本文链接：https://blog.csdn.net/androidlushangderen/article/details/41243505

本文详细分析了Reduce Task的五个阶段，重点讨论了Shuffle、Merge和Sort阶段。Shuffle阶段涉及远程拷贝Map任务的中间结果；Merge阶段与Shuffle并行，进行数据合并；Sort阶段对数据进行排序。接着是Reduce阶段，执行用户定义的reduce()函数，最后是Write阶段，将结果写入HDFS。理解这两个核心过程有助于掌握Hadoop作业的运行机制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MapReduce五大过程已经分析过半了，上次分析完Map的过程，着实花费了我的很多时间，不过收获很大，值得了额，这次用同样的方法分析完了Reduce的过程，也算是彻底摸透了MapReduce思想的2个最最重要的思想了吧。好，废话不多，切入正题，在学习Reduce过程分析的之前，我特意查了书籍上或网络上相关的资料，我发现很大都是大同小异，缺乏对于源码的参照分析，所以我个人认为，我了可以在某些细节上讲得跟明白些，也许会比较好。因为Map和Reduce的过程的整体流程是非常相近的，如果你看过之前我写的Map Task的分析，相信你也能很快理解我的Reduce过程的分析的。Reduce过程的集中表现体现于Reduce Task中，Reduce Task与Map Reduce一样，分为Job-setup Task, Job-cleanup Task, Task-cleanup Task和Reduce Task。我分析的主要是最后一个Reduce Task 。Reduce Task 主要分为5个阶段:

Shuffle------------------->Merge------------------->Sort------------------->Reduce------------------->Write

其中最重要的部分为前3部分，我也会花最多的时间描述前面3个阶段的任务。

Shuffle阶段。我们知道，Reduce的任务在最最开始的时候，就是接收Map任务中输出的中间结果的数据，key-value根据特定的分区算法，给相应的Reduce任务做处理，所以这时需要Reduce任务去远程拷贝Map输出的中间数据了，这个过程就称作Shuffle阶段，所以这个阶段也称为Copy阶段。在Shuffle阶段中，有个GetMapEventsThread，会定期发送RPC请求，获取远程执行好的Map Task的列表，把他们的输出location映射到mapLocation中。

....
        	//GetMapEventsThread线程是远程调用获得已经完成的Map任务的列表
            int numNewMaps = getMapCompletionEvents();
            if (LOG.isDebugEnabled()) {
              if (numNewMaps > 0) {
                LOG.debug(reduceTask.getTaskID() + ": " +  
                    "Got " + numNewMaps + " new map-outputs"); 
              }
            }
            Thread.sleep(SLEEP_TIME);
          }

进入getMapCompletionEvents方法，继续看:

...
        for (TaskCompletionEvent event : events) {
          switch (event.getTaskStatus()) {
            case SUCCEEDED:
            {
              URI u = URI.create(event.getTaskTrackerHttp());
              String host = u.getHost();
              TaskAttemptID taskId = event.getTaskAttemptId();
              URL mapOutputLocation = new URL(event.getTaskTrackerHttp() + 
                                      "/mapOutput?job=" + taskId.getJobID() +
                                      "&map=" + taskId + 
                                      "&reduce=" + getPartition());
              List<MapOutputLocation> loc = mapLocations.get(host);
              if (loc == null) {
                loc = Collections.synchronizedList
                  (new LinkedList<MapOutputLocation>());
                mapLocations.put(host, loc);
               }
              //loc中添加新的已经完成的，mapOutputLocation,mapLocations是全局共享的
              loc.add(new MapOutputLocation(taskId, host, mapOutputLocation));
              numNewMaps ++;
            }
            break;
            ....

为了避免出现网络热点，Reduce Task对输出的位置进行了混洗的操作，然后保存到scheduleCopies中，后续的拷贝操作都是围绕着这个列表进行的。这个变量保存在了一个叫ReduceCopier的类里面。确认拷贝的目标位置，还只是Shuffle阶段的前半部分，这时看一下，执行的入口代码在哪里。回到Reduce Task的入口run()代码: