初识Mapreduce
Mapreduce介绍
核心:分而治之。
Map负责分,把复杂的任务分解为若干个简单任务来并行处理。
Reduce负责合,对map阶段的结果进行汇总。
Mapmask:线程
可以有多个reduce,不同reduce有不同的任务。
Mapreduce设计构思
MapReduce有两个部分,一个是自带的计算框架,一个是自己写的业务逻辑代码。如何结合两个部分?提供了统一的计算接口,只需要在应用层进行具体的计算,剩下的交给框架来处理。定义了Map和Reduce两个抽象的编程接口口,用户去编程实现.Map和Reduce,Mapreduce处理的数据类型是**<key,value>键值对**。数据流在走的时候,其实就是键值对的转换,把一个键值对转换成另一个键值对。
Map(k1;v1)->(k2;v2) 类似于数组遍历
Reduce(k2;v2)->(k3,v3)