MapReduce的一个通俗解释

最新推荐文章于 2024-07-31 13:16:03 发布

为幸福写歌

最新推荐文章于 2024-07-31 13:16:03 发布

阅读量4.8k

点赞数 4

分类专栏： MapReduce 文章标签： mapreduce

MapReduce 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

其实我们可以从word count这个实例来理解MapReduce。MapReduce大体上分为六个步骤：input, split, map, shuffle, reduce, output。细节描述如下：

1. 输入(input)：如给定一个文档，包含如下四行：
Hello Java
Hello C
Hello Java

Hello C++

2. 拆分(split)：将上述文档中每一行的内容转换为key-value对，即：
0 - Hello Java
1 - Hello C
2 – Hello Java

3 - Hello C++

3. 映射(map)：将拆分之后的内容转换成新的key-value对，即：
(Hello , 1)
(Java , 1)
(Hello , 1)
(C , 1)
(Hello , 1)
(Java , 1)
(Hello , 1)

(C++ , 1)

4. 派发(shuffle)：将key相同的扔到一起去，即：
(Hello , 1)
(Hello , 1)
(Hello , 1)
(Hello , 1)
(Java , 1)
(Java , 1)
(C , 1)
(C++ , 1)
注意：这一步需要移动数据，原来的数据可能在不同的datanode上，这一步过后，相同key的数据会被移动到同一台机器上。最终，它会返回一个list包含各种k-value对，即：
{ Hello: 1,1,1,1}
{Java: 1,1}
{C: 1}

{C++: 1}

5. 缩减(reduce)：把同一个key的结果加在一起。如：
(Hello , 4)
(Java , 2)
(C , 1)

(C++,1)

6. 输出(output): 输出缩减之后的所有结果。

转自知乎：https://www.zhihu.com/question/23345991/answer/223113502

为幸福写歌

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。