理解MapReduce

最新推荐文章于 2019-10-28 19:33:17 发布

hustfc

最新推荐文章于 2019-10-28 19:33:17 发布

阅读量169

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36372879/article/details/84374239

版权

大数据专栏收录该内容

8 篇文章 0 订阅

订阅专栏

执行流程

创建一个map函数处理一个基于key/value对的数据集合，输出中间数据，并写入磁盘
创建一个reduce函数来合并处理中间数据，具有相同key值的value调用被分布到多台机器上

reduce可以分布到多台机器上，例如hash(key) mod R， R为分区数目，一个job包含多个task，每个reduce任务产生一个输出文件，因此有R个输出文件。

实现模型

在这里插入图片描述

执行过程

首先调用MapReduce库，将输入文件分成M个数据片段(split)。用户程序在集群中创建(fork)大量程序副本。
程序副本中，有一个特殊的程序(master)，其他程序都早worker
map任务的workder读取相关的输入数据片段(split)，从中解析出key-value对，输出并缓存在内存中
缓存中的key-value通过分区函数分成R个区域之后，写入到本地硬盘上，然后将存储位置传递给master
reduce worker接收到master发来的数据存储位置，使用RPC读取数据，读取之后对key进行排序，是具有相同的key聚合在一起
reduce worker输出
master唤醒用户程序，对MapReduce调用返回

master执行了O(M+R)个调度，在内存中保存O(M*R)个状态

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
理解MapReduce

执行流程创建一个map函数处理一个基于key/value对的数据集合，输出中间数据，并写入磁盘创建一个reduce函数来合并处理中间数据，具有相同key值的value调用被分布到多台机器上reduce可以分布到多台机器上，例如hash(key) mod R， R为分区数目，一个job包含多个task，每个reduce任务产生一个输出文件，因此有R个输出文件。实现模型执行过程首先...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。