c++中两个key确定一个value_Hadoop基础MapReduce编程模型(二)认识三组Key和Value-CSDN博客

<>以sort和wordcount为例讲解了MapReduce的编程模型。今天进一步讲解MapReduce编程模型中涉及的三组Key和Value,分别是：(K1,V1),(K2,K2),和(K3,K3)。了解这三组key和value有助于深刻理解MapReduce编程模型。在详细进入讨论之前，先讲述两个背景知识。

一、背景知识

1.1 Map函数、Map任务、和Map阶段

Map函数：在编写MapReduce程序时，用户需要实现两个函数。其中一个是Map函数,另一个是Reduce函数。Map函数的接口由框架确定，输入为一组(key, Value), 但具体逻辑由用户自己实现。需要注意的是，Map函数会被Map任务反复调用。

Map任务：指的是一个进程，实现了三部分功能：1、准备工作，以一个Block的数据为输入，将Block转化为一组(Key,Value)；2、具体执行，遍历上一步中的(Key,Value)集合，循环调用Map函数，并以(Key,Value)作为Map函数的输入参数；3、结果收集，保存Map函数中的输出。

Map阶段：是MapReduce编程模型的一部分，是数据处理流程逻辑上的功能划分，逻辑上对应数据读取，数据处理、数据结果保存等三部分功能。具体工作由Map任务实现。

1.2 Block和Split的关系

一个HDFS上文件会划分为多个Block(一个数据块的大小为64MB或128MB,也可配置成其它大小)，不同的Block会分布到集群中多个DataNode上。NameNode的元数据中记录了两种映射，一个文件被分为了多少个Block，每个Block起止点(以字节数标记)；每个Block保存在那些DataNode上。

Block对一个文件进行了实际的物理分割，逻辑上相邻的两个Block一般存储在不同DataNode上(即使存储在同一个DataNode上，它们在磁盘上也相互独立)。改变这种分割需要付出很大的代价，需要将数据重新读入内存，按不同块大小Block Size将数据写入HDFS，会引起大量的IO操作。

Split记录了对文件一个逻辑上的分割，每个Split记录了自身在文件中的起止偏移量，并不存在一对一的物理实体。按照MapReduce的设计原理，每个Split对应一个Map任务。改变Split对应的这种分割基本不需要代价。

一般情况下一个Split对应一个Block，这样可以达到较好的数据局部性，调度器将Map任务放置在该Block对应的节点即可。假如一个Split跨越两个不同Block，Split对应的Map任务应该放置在那个节点？在这种情况下，Map任务会放置在其中一个Block对应的节点，并将另外一个Block远程拷贝到本地处理，引起了不必要的网络传输。

二、不同[Key,Value]出现的场景