一、mapreduce编程模型
- 一种分布式计算模型。
- MapReduce将这个并行计算过程抽象到两个函数。
- Map(映射):对一些独立元素组成的列表的每一个元素进行指定的操作,可以高度并行。
- Reduce(化简 归约):对一个列表的元素进行合并。
- 一个简单的MapReduce程序只需要指定map()、reduce()、input和output,剩下的事由框架完成。
二、mapreduce名词解释
- Job :用户的每一个计算请求称为一个作业。
- Task:每一个作业,都需要拆分开了,交由多个主机来完成,拆分出来的执行单位就是任务。
- Task又分为如下三种类型的任务:
- Map:负责map阶段的整个数据处理流程
- Reduce:负责reduce阶段的整个数据处理流程
- MRAppMaster:负责整个程序的过程调度及状态协调