MapReduce概念理解

最新推荐文章于 2024-06-20 08:04:37 发布

somilong

最新推荐文章于 2024-06-20 08:04:37 发布

阅读量1.3k

点赞数

分类专栏：系统服务搭建文章标签： mapreduce

本文链接：https://blog.csdn.net/somilong/article/details/51581856

版权

系统服务搭建专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Hadoop的思想来源于Google的几篇论文，Google的那篇MapReduce论文里说：Our abstraction is inspired by the map and reduce primitives present in Lisp and many other functional languages。这句话提到了MapReduce思想的渊源，大致意思是，MapReduce的灵感来源于函数式语言（比如Lisp）中的内置函数map和reduce。函数式语言也算是阳春白雪了，离我们普通开发者总是很远。简单来说，在函数式语言里， map表示对一个列表（List）中的每个元素做计算，reduce表示对一个列表中的每个元素做迭代计算。它们具体的计算是通过传入的函数来实现的，map和reduce提供的是计算的框架。不过从这样的解释到现实中的MapReduce还太远，仍然需要一个跳跃。再仔细看，reduce既然能做迭代计算，那就表示列表中的元素是相关的，比如我想对列表中的所有元素做相加求和，那么列表中至少都应该是数值吧。而map是对列表中每个元素做单独处理的，这表示列表中可以是杂乱无章的数据。这样看来，就有点联系了。在MapReduce里， Map处理的是原始数据，自然是杂乱无章的，每条数据之间互相没有关系；到了Reduce阶段，数据是以key后面跟着若干个value来组织的，这些value有相关性，至少它们都在一个key下面，于是就符合函数式语言里map和reduce的基本思想了。

这样我们就可以把MapReduce理解为，把一堆杂乱无章的数据按照某种特征归纳起来，然后处理并得到最后的结果。Map面对的是杂乱无章的互不相关的数据，它解析每个数据，从中提取出key和value，也就是提取了数据的特征。经过MapReduce的Shuffle阶段之后，在Reduce阶段看到的都是已经归纳好的数据了，在此基础上我们可以做进一步的处理以便得到结果。这就回到了最初，终于知道MapReduce为何要这样设计。

以下图举例说明：

用MapReduce实现一个图形识别计数的功能，如上图，map的作用是对每个原始图形(数据)进行计算识别，比如最终得到的key/value是‘图形类别/count’ ，因为map是对元数据中的每个元素单独操作(如上图所示元数据有12个图形，但是我们只有9个计算节点，这12个图形会被框架调度到其中一个节点上进行map计算，提取key/value，实现并发计算)，所以count始终是1，例如： square/1, 待map计算完元数据后，将key/value扔给reduce，那么有相同key的键值对会扔给同一个reduce，比如本示例中的正方形，六边形，三角形都分别归集到一个reduce上，然后reduce会对其所有的键值对的value进行迭代计算(本例为count累加计算)

参考：http://blog.jobbole.com/1321/

参考：http://baike.baidu.com/link?url=gDl4LHJkUrl7hc4djEkEK_Xi2VexiuvyjuOvrky9GOsPmes4_pGi3RPngkmo76Cgkx36QaeMJAN5SdyG95K1oq

somilong

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce概念理解

Hadoop的思想来源于Google的几篇论文，Google的那篇MapReduce论文里说：Our abstraction is inspired by the map and reduce primitives present in Lisp and many other functional languages。这句话提到了MapReduce思想的渊源，大致意思是，MapReduce的灵感来
复制链接

扫一扫

专栏目录