MapReduce运行流程(7步):
作业启动>>>作业初始化>>>任务调度(Yarn)>>>map>>>shuffle>>>reduce>>>作业完成
- MapReduce将整个并行计算过程抽象到两个函数:
- Map(映射):对一些独立元素组成的列表的每一个元素进行指定的操作,可以高度并行。
- Reduce(化简):对一个列表的元素进行合并。
- 一个简单的MapReduce程序只需要指定map()、reduce()、input和output,剩下的事由框架完成。
- MapReduce模板:
- MapReduce编程模板类结构图:
参考代码:
Mapper处理: