mapreduce的三个实例进程在分布式运行是分别担任的任务
1、MrAppMaster:负责整个程序的过程调度及状态协调
2、MapTask:负责map阶段的整个处理流程
3、ReduceTask:负责reduce阶段的整个数据处理流程
编程阶段
1)mapper阶段
mapper 的输入数据是kv对的形式(kv的类型可以自定义)
Mapper中的业务逻辑写在map()方法中
map()方法(mapTask进程)对每一个<k,v>调用一次
2)reducer阶段
reduceTask 进程对每一组相同的k的<k,v>组调用一次reduce()方法
3)driver阶段
提交各种信息的job对象