先来举个栗子:
假如让你统计一个院子的车,统计每个品牌的车有多少个?你会怎么没去统计。
铁蛋来了,说soeasy,从前统计到后,累成狗。
那么,现在的扩大了,统计一个县城,或者一个区,你怎么去做。
铁蛋叫来了他的狐朋狗友,铁柱,二虎,波仔,妞妞,小花等等。一个人负责一个院子。让后每人统计好,最会汇总。
那么,是不是很快也很简单。
铁蛋又拍着胸脯吹了个牛说。别说一个县,只要朋友多,那都不是事。
这里我们是不是将事情分布,并且最后进行汇总。接下来进入主题。
MapReduce
为什么叫MapReduce,不叫小XXOO,apache ss,等。
MapTask—并行,比如铁蛋的多个朋友同时出去统计车。
ReduceTask----汇总, 统计完每个人的然后汇总。就是整个最后的结果。
1.1图片水平来看------------------>
一个input输入端,一个output输出端,mapTask的输出是reduceTask的输入。只有mapTask统计完了,reduceTask才能统计。线性依赖。
1.2图片垂直来看------------------>
map有三个,reduce有两个。map就是铁蛋的朋友,朋友越多执行效率越快。reduce也可以有多个。根据