MapReduce主要分为八个步骤:
1)读取文件,解析成key,value对
2)自定义map函数
3)对map输出的数据进行分区
4)对分区后的数据进行排序分组
5)对分组后的数据进行规约
6)通过网络拷贝,将map输出的数据拷贝到reduce节点
7)自定义reduce函数,对map输入的key,value对进一步的处理
8)对处理后的数据进行输出
具体8个步鄹细节如下:
Map处理的是一个纯文本。Mapper处理的数据是由InputFormat分解过的数据集,
其中InputFormat的作用是将数据集切割成小数据集InputSplit,每一个InputSplit将由一个Mapper处理,此外,InputFormat中还提供了一个RecordReader的实现,并将一个InputSplit解析成key,value对提供给map函数。InputFormat的默认值是TextInputFormat,它针对文本文件,按行将文本切割成InputSplit,并用LineRecordReader将InputSplit解析成key,value对,key是行在文本中的位置,value是文本中的一行。
InputFormat类定义了如何分割和读取输入文件,它提供有下面的几个功能:
选择作为输入的文件或对象;
定义把文件划分到任务的InputSplits;
为RecordReader读取文件提供了一个工厂方法;
Hadoop自带了好几个输入格式。其中有一个抽象类叫FileInputFormat,所有操作文件的InputFormat类都是从它那里继承功能和属性。当开启Hadoop作业时,FileInputFormat会得到一个路径参数,这个路径内包含了所需要处理的文件,FileInputFormat会读取这个文件夹内的所有文件(译注:默认不包括子文件夹内的),然后它会把这些文件拆分成一个或多个的InputSplit。你可以通过Job对象的setInputFormat()方法来设定应用到你的作业输入文件上的输入格式。下表给出了一些标准的输入格式:
Map的结果会通过partion分发到Reducer,中间涉及到copy和merge的过程,merge的时候,具有相同key的键/值对则送到同一个Reducer上。Reducer是所有用户定制Reducer类的基础,它的输入是key和这个key对应的所有的value的一个迭代器,同时还有Reducer的上下文。Reducer做完Reduce操作后,将通过OutputFormat输出,最终由Reducer.Context的write方法输出到文件中。
下面给出两个结点的示意图: