在Map阶段处理数据时,由于内存的限制,会把数据先写到文件中,最终会根据数据的多少生成多个文件,每个文件中会按照Reduce的个数分区,每个分区的数据都按照key值顺序排放,Map结束后将多个文件合并为同一个文件,合并时会将多个文件相同分区的数据合并在一起并且多个分区的数据重新排序按照key顺序排放。在Reduce阶段则从多个Map中获取属于该Reduce的分区数据,然后会根据数据的多少写到文件和内存中,每个Map的数据为一个文件或一段内存,最后对内存和文件的数据进行合并计算输出最后的结果,合并的方式与Map合并方式一致。因此在Map和Reduce阶段都存在把多个文件或多段内存中的数据合并计算输出一个文件。
如上图所示Map阶段需要对多个文件的数据合并,在Reduce阶段Reduce Task 1向各个Map获取分区1的数据,Reduce Task 2向各个Map获取分区2的数据,Reduce Task 3向各个Map获取分区3的数据,图中为了简便,Reduce Task3向map获取数据的指向没有标识。获取完毕后根据数据的大小情况放到内存或文件中,然后对多个Map的分区数据进行合并,然后reduce计算后输出最终结果。
合并数据前首先把内存的数据,或者文件的数据用Segment封装对数据的读取,它提供了两个构造函数,分别对文件和内存的读入方式构造Segmen