MapReduce程序运行流程_mapreduce中map处理逻辑-CSDN博客

本文详细介绍了MapReduce程序的执行流程，包括Mapper阶段的六个步骤和Reducer阶段的三个步骤，并通过WordCount实例具体说明。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

为了方便理解，先用作图的方式进行阐述：

MapReduce程序的执行过程分为两个阶段：Mapper阶段和Reducer阶段。

其中Mapper阶段可以分为6个步骤：

第一阶段：先将HDFS中的输入文件file按照一定的标准进行切片，默认切片的类为FileInputFormat，通过切片输入文件将会变成split1、split2、split3……；随后对输入切片split按照一定的规则解析成键值对<k1,v1>,默认处理的类为TextInputFormat。其中k1就是我们常说的起始偏移量，v1就是行文本的内容。

第二阶段：调用自己编写的map逻辑，将输入的键值对<k1，v1>变成<k2，v2>。在这里要注意：每一个键值对<k1,v1>都会调用一次map函数。

第三阶段：按照一定的规则对输出的键值对<k2,v2>进行分区：分区的规则是针对k2进行的，比如说k2如果是省份的话，那么就可以按照不同的省份进行分区，同一个省份的k2划分到一个区。注意：默认分区的类是HashPartitioner类，这个类默认只分为一个区，因此Reducer任务的数量默认也是1.

注意：如reduce要求得到的是全局的结果，则不适合分区!

第四阶段：对每个分区中的键值对进行排序。注意：所谓排序是针对k2进行的，v2是不参与排序的，如果要让v2也参与排序，需要自定义排序的类，具体过程可以参看博主文章。

第五阶段：排序完之后要进行分组，即相同key的value放到同一个集合当中，例如在WordCount程序中的<hello,{1,1}>执行的就是这个步骤，但是要注意：分组也是针对key进行的，经过分组完之后，就得到了我们熟悉的键值对<k2,v2s>.

第六阶段（可选）：对分组后的数据进行归约处理。通过归约处理键值对<k2，v2s>变成了<k2,v2>，经过这一阶段，传送到Reducer任务端的数据量会减少。但是规约的使用是有条件的，所以这一阶段是可以选择的。

上面的三四五：分区排序分组三个阶段可以归结为shuffle阶段，在shuffle阶段对键值对<k2,v2>处理后变成了<k2，v2s>.

Mapper任务处理完之后，就进入到了我们的Reducer阶段：

Reducer任务的执行过程可以分为3个阶段：

第一阶段：对多个Mapper任务的输出，按照不同的分区，通过网络拷贝到不同的Reducer节点上进行处理，将数据按照分区拷贝到不同的Reducer节点之后，对多个Mapper任务的输出在进行合并，排序。例如：在WordCount程序中，若一个Mapper任务输出了<hello,{1,1}>，另外一个Mapper任务的输出为<hello,{1,1,1}>，经过在次合并之后变为<hello,{1,1,1,1,1}>.

第二阶段：调用自己的reduce逻辑，将键值对<k2,v2s>变为<k3,v3>.在这里注意：每一个键值对<k2,v2s>都会调用一次reduce函数。

第三阶段：将Reducer任务的输出保存到指定的文件中。

经过上面的具体分析之后，我们在通过WordCount业务进行具体的说明，假设输入文件的内容为：