MapReduce 1.2.1源码分析
文章平均质量分 80
chlaws
希望身体健康
展开
-
MapReduce源码分析之架构分析1
前言 MapReduce的源码分析是基于Hadoop1.2.1基础上进行的代码分析。 本篇,将不会涉及代码部分的分析,只是简单分析map的整体架构,并介绍map与reduce的运行过程,主要是为后续的分析做一个铺垫。至于MapTask/ReduceTask的原理分析,JobTracker部分,以及TaskTracker如何启动一个Task这些都将在后续章节给出。MR编程模型原创 2014-04-14 22:24:54 · 5201 阅读 · 2 评论 -
MapReduce源码分析之InputSplit分析
前言MapReduce的源码分析是基于Hadoop1.2.1基础上进行的代码分析。什么是InputSplit InputSplit是指分片,在MapReduce当中作业中,作为map task最小输入单位。分片是基于文件基础上出来的而来的概念,通俗的理解一个文件可以切分为多少个片段,每个片段包括了等信息。在MapTask拿到这些分片后,会知道从哪开始读取数据。Job原创 2014-04-03 23:15:55 · 13708 阅读 · 2 评论 -
MapReduce源码分析之MapTask分析(二)
MapReduce源码分析之MapTask详解的后半段文章。在分析过程中我们知道了MapTask是如何使用循环缓存区管理数据,知道了数据在缓存不下是如何做spill处理的,spill输出的数据格式,combiner如何处理,如何将多一个文件merge为一个等等。也希望通过阅读这部分源码能学习到部分设计思路,能在未来的设计中提供多一种思路。原创 2014-08-04 22:21:17 · 6427 阅读 · 3 评论 -
MapReduce源码分析之MapTask分析
前言 MapReduce的源码分析是基于Hadoop1.2.1基础上进行的代码分析。 该章节会分析在MapTask端的详细处理流程以及MapOutputCollector是如何处理map之后的collect输出的数据。 map端的主要处理流程图1 MapTask处理流程 图1所示为MapTask的主要代码执行流程,在MapTask启动后会进入入口run函数,根据是否使用原创 2014-07-13 20:55:13 · 6877 阅读 · 1 评论