一、MapReduce概述
- 源自于Google的MapReduce论文,论文发表于2004年12月
- Hadoop MapReduce是Google MapReduce的克隆版
- MapReduce优点:海量数据离线处理&易开发&易运行
- MapReduce缺点:实时流式计算
二、MapReduce编程模型
- 将流程拆分成Map阶段和Reduce阶段
- Map阶段:Map Tasks
- Reduce阶段:Reduce Tasks
三、MapReduce编程模型的执行步骤
- 准备map处理的输入数据
- Mapper处理
- Shuffle
- Reduce处理
- 结果输出
四、MapReduce编程模型的核心概念
-
Split
-
InputFormat
-
OutputFormat
-
Combiner
-
Partitioner