《云计算》教材试读：并行数据处理MapReduce

最新推荐文章于 2021-05-17 10:04:10 发布

gloud

最新推荐文章于 2021-05-17 10:04:10 发布

阅读量4k

点赞数

文章标签： mapreduce 云计算 fold 任务编程任务调度

本文链接：https://blog.csdn.net/gloud/article/details/5667554

版权

MapReduce是Google提出的处理海量数据的并行编程模式，源于函数式编程概念，简化了分布式计算，适用于非结构化和结构化数据的处理。编程时只需编写Map和Reduce函数，Map对数据进行映射，Reduce进行结果聚合。MapReduce通过Master和Worker节点实现任务调度，具有容错机制，如Master或Worker失效时可自动恢复。

摘要由CSDN通过智能技术生成

2.2 并行数据处理MapReduce

MapReduce是Google提出的一个软件架构，是一种处理海量数据的并行编程模式，用于大规模数据集（通常大于1TB）的并行运算。“Map（映射）”、“Reduce（化简）”的概念和主要思想，都是从函数式编程语言和矢量编程语言借鉴来的^[5]。正是由于MapReduce有函数式和矢量编程语言的共性，使得这种编程模式特别适合于非结构化和结构化的海量数据的搜索、挖掘、分析与机器智能学习等。

2.2.1 产生背景

MapReduce这种并行编程模式思想最早是在1995年提出的，文献[6]首次提出了“map”和“fold”的概念，和现在Google所使用的“Map”和“Reduce”思想是相吻合的。

与传统的分布式程序设计相比，MapReduce封装了并行处理、容错处理、本地化计算、负载均衡等细节，还提供了一个简单而强大的接口。通过这个接口，可以把大尺度的计算自动地并发和分布执行，从而使编程变得非常容易。还可以通过由普通PC构成的巨大集群来达到极高的性能。另外，MapReduce也具有较好的通用性，大量不同的问题都可以简单地通过MapReduce来解决。

MapReduce把对数据集的大规模操作，分发给一个主节点管理下的各分节点共同完成，通过这种方式实现任务的可靠执行与容错机制。在每个时间周期，主节点都会对分节点的工作状态进行标记，一旦分节点状态标记为死亡状态，则这个节点的所有任务都将分配给其他分节点重新执行。

据相关统计，每使用一次Google搜索引擎，Google的后台服务器就要进行1011次运算。这么庞大的运算量，如果没有好的负载均衡机制，有些服务器的利用率会很低，有些则会负荷太重，有些甚至可能死机，这些都会影响系统对用户的服务质量。而使用MapReduce这种编程模式，就保持了服务器之间的均衡，提高了整体效率。

2.2.2 编程模型

MapReduce的运行模型如图2-2所示。图中有M个Map操作和R个Reduce操作。

图2-2 MapReduce的运行模型

简单地说，一个Map函数就是对一部分原始数据进行指定的操作。每个

最低0.47元/天解锁文章

gloud

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
《云计算》教材试读：并行数据处理MapReduce

2.2 并行数据处理MapReduceMapReduce是Google提出的一个软件架构，是一种处理海量数据的并行编程模式，用于大规模数据集（通常大于1TB）的并行运算。“Map（映射）”、“Reduce（化简）”的概念和主要思想，都是从函数式编程语言和矢量编程语言借鉴来的[5]。正是由于MapReduce有函数式和矢量编程语言的共性，使得这种编程模式特别适合于非结构化和结构化的海量数据的搜索、挖掘、分析与机器智能学习等。2.2.1 产生背景MapReduce这种并行编程模式思想最早是在1995年提出的
复制链接

扫一扫