分布式系统 MapReduce

最新推荐文章于 2022-11-24 19:12:42 发布

颛顼子

最新推荐文章于 2022-11-24 19:12:42 发布

阅读量278

点赞数

文章标签： MapReduce 6.824 分布式

本文链接：https://blog.csdn.net/hohomi77/article/details/100560891

版权

MapReduce是一种编程模型，旨在让不具备并行和分布式经验的程序员也能利用大型分布式系统。通过Map和Reduce函数，程序员可以处理大规模数据。MapReduce隐藏了如任务调度、数据分发和故障恢复等复杂细节，并具有良好的可扩展性。然而，它不适合小数据量、需要频繁更新或复杂数据交互的应用。尽管MapReduce牺牲了某些效率和灵活性，但其简单性使其成为大规模数据处理的有效工具。

摘要由CSDN通过智能技术生成

MapReduce

一、作者想达成什么目标？

让没有并行和分布式经验的程序员也可以利用大型分布式系统的资源。
隐藏掉那些关于并行化、数据分发、负载均衡、容错(fault-tolerance)的混乱而棘手的细节(messy details)。

二、作者发明了什么技术方法？

一种编程模型和它的实现。
用户只要写一个map函数，和一个reduce函数。

MapReduce的概要

输入被分成M个文件

 Input1 -> Map -> a,1 b,1 c,1   
 Input2 -> Map ->     b,1  
 Input3 -> Map -> a,1     c,1
                  |   |   |
                  |   |   -> Reduce -> c,2
                  |   -----> Reduce -> b,2
                  ---------> Reduce -> a,2

MR为每个文件调用一次Map(), 产生一系列 k2,v2，"中间"数据
对于每个键k2，MR收集它所有的值v2，并传递给一个Reduce调用
（注：同一个key都是分给同一个Reduce）
Reduce处理的结果是一组 <k2, v3>
总之：
[

最低0.47元/天解锁文章

颛顼子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分布式系统 MapReduce

MapReduce一、作者想达成什么目标？让没有并行和分布式经验的程序员也可以利用大型分布式系统的资源。隐藏掉那些关于并行化、数据分发、负载均衡、容错(fault-tolerance)的混乱而棘手的细节(messy details)。二、作者发明了什么技术方法？一种编程模型和它的实现。用户只要写一个map函数，和一个reduce函数。MapReduce的概要输入被分成M个文...
复制链接

扫一扫