Mapreduce 是一种处理海量数据的并行编程模型和计算框架。在hadoop中负责进行数据的处理分析。
工作原理:
Mapreduce采用分治的算法,既处理的数据或任务需要满足一下两个条件:
1,数据集可以分解成多个小的数据集;
2,各个小数据集的结果汇集起来就是大数据集的结果。
在分治的思想下,mapreduce被抽象出两个可自定义的函数:map负责将数据集或任务进行割分;reduce负责将割分数据集的结果汇集起来。其中Mapreduce框架负责协调处理。
具体处理三过程:
Map过程:继承mapper类进行数据的割分;
Reduce过程:继承reduce类进行结果集的汇集;