MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题.
MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。
这两个函数的形参是key、value对,表示函数的输入信息。
一、MR流程:
1:代码编写
2:作业配置
3:提交作业
4:初始化作业
5:分配任务
6--执行任务
7--更新任务和状态
8--完成作业
二、jobClient:提交作业
JobTracker:初始化作业,分配作业,TaskTrack