MapReduce是离线批处理大规模数据的编程模型,MapReduce程序是并行运行的
map和reduce
任务过程分为两个阶段:map阶段和reduce阶段,每个阶段都是以键值对作为输入输出,要编写两个函数:map函数和reduce函数
下图为MapReduce的逻辑数据流,底部是Unix管线,模拟流程
Java MapReduce
map函数 + reduce函数 + 运行作业的代码
实现Mapper类的map方法 + 实现Reducer类的reduce方法 + Job实例设定执行规范,控制作业的运行