图解mapreduce原理和执行过程

最新推荐文章于 2025-09-18 10:25:24 发布

原创最新推荐文章于 2025-09-18 10:25:24 发布 · 1.5w 阅读

·

11

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#mapreduce #原理 #执行过程

hadoop 专栏收录该内容

11 篇文章

订阅专栏

本文详细介绍了MapReduce的工作原理及其流程，重点解释了Map和Reduce阶段如何处理键值对，并通过词频统计示例展示了Combiner和Partitioner的作用。

说明：

下面的图来自南京大学计算机系黄宜华老师开设的mapreduce课程的课件，这里稍作整理和总结。

本文旨在对接触了mapreduce之后，但是对mapreduce的工作流程仍不是很清楚的人员，当然包括博主自己，希望与大家一起学习。

mapreduce的原理

MapReduce借鉴了函数式程序设计语言Lisp中的思想，Lisp(List processing)是一种列表处理语言，可对列表元素进行整体处理。

如：(add #(1 2 3 4) #(4 3 2 1)) 将产生结果：#(5 5 5 5)

mapreduce之所以和lisp类似，是因为mapreduce在最后的 reduce阶段也是以key为分组进行列的运算。

下面这幅图就是mapreduce的工作原理

1）首先文档的数据记录(如文本中的行，或数据表格中的行)是以“键值对”的形式传入map 函数，然后map函数对这些键值对进行处理(如统计词频)，然后输出到中间结果。

2）在键值对进入reduce进行处理之前，必须等到所有的map函数都做完，所以既为了达到这种同步又提高运行效率，在mapreduce中间的过程引入了barrier(同步障)

在负责同步的同时完成对map的中间结果的统计，包括 a. 对同一个map节点的相同key的value值进行合并，b. 之后将来自不同map的具有相同的key的键值对送到同一个reduce进行处理。

3）在reduce阶段，每个reduce节点得到的是从所有map节点传过来的具有相同的key的键值对。reduce节点对这些键值进行合并。

以词频统计为例。

词频统计就是统计一个单词在所有文本中出现的次数，在hadoop中的事例程序就是wordcount，俗称hadoop编程的"hello world".

因为我们有多个文本，所以可以并行的统计每个文本中单词出现的个数，然后最后进行合计。

所以这个可以很好地体现map，reduce的过程。

可以发现，这张图是上面那张图的进一步细化，主要体现在：

1）Combiner 节点负责完成上面提到的将同一个map中相同的key进行合并，避免重复传输，从而减少传输中的通信开销。

2）Partitioner节点负责将map产生的中间结果进行划分，确保相同的key到达同一个reduce节点.

评论 3

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。