分布式并行编程模型MapReduce简介

最新推荐文章于 2021-10-26 19:12:51 发布

tonghuali

最新推荐文章于 2021-10-26 19:12:51 发布

阅读量977

点赞数

分类专栏：系分之路文章标签：编程 Mapreduce Hadoop 网络应用框架

本文链接：https://blog.csdn.net/tonghuali/article/details/83529906

版权

系分之路专栏收录该内容

5 篇文章 0 订阅

订阅专栏

MapReduce编程模型简介

MapReduce编程模型由google公司Jeffery Dean等人设计，用于在分布式并行环境中处理海量数据的计算。它将一个任务分解成更多份细粒度的子任务，这些子任务在空闲的处理节点之间被调度和快速处理之后，最终通过特定的规则进行合并生成最终的结果，其处理模型有点类似于传统编程模型中的[分解和归纳]方法。
MapReduce模型将分布式运算抽象成Map和Reduce两个步骤，从而实现高效的分布式应用。其中Map步骤负责根据用户输入的Key-Value pair生成中间结果，中间结果同样采用Key-Value pair的形式。Reduce步骤则将所有的中间结果根据Key进行合并，然后生成最终结果。而开发人员需要做的就是实现自己的Map和Reduce函数逻辑，然后提交给MapReduce运行环境，比如说现在的开源分布式并行编程框架Hadoop.
MapReduce运行环境一般由两种不同类型的节点组成，分别是负责数据处理的Worker节点，负责任务调度以及各节点间数据共享管理的Master节点。具体的执行流程如下（附件）：

计算模型的核心是 Map 和 Reduce 两个函数，这两个函数由用户负责实现，功能是按一定的映射规则将输入的 <key, value> 对转换成另一个或一批 <key, value> 对输出。
Map 和 Reduce 函数
函数输入输出说明
Map <k1, v1> List(<k2,v2>) 1. 将小数据集进一步解析成一批 <key,value> 对，输入 Map 函数中进行处理。
2. 每一个输入的 <k1,v1> 会输出一批 <k2,v2>。 <k2,v2> 是计算的中间结果。
Reduce <k2,List(v2)> <k3,v3> 输入的中间结果 <k2,List(v2)> 中的 List(v2) 表示是一批属于同一个 k2 的 value
以一个计算文本文件中每个单词出现的次数的程序为例，<k1,v1> 可以是 <行在文件中的偏移位置, 文件中的一行>，经 Map 函数映射之后，形成一批中间结果 <单词，出现次数>, 而 Reduce 函数则可以对中间结果进行处理，将相同单词的出现次数进行累加，得到每个单词的总的出现次数。
基于 MapReduce 计算模型编写分布式并行程序非常简单，程序员的主要编码工作就是实现 Map 和 Reduce 函数，其它的并行编程中的种种复杂问题，如分布式存储，工作调度，负载平衡，容错处理，网络通信等，均由 MapReduce 框架(比如 Hadoop )负责处理，程序员完全不用操心。

tonghuali

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分布式并行编程模型MapReduce简介

MapReduce编程模型简介MapReduce编程模型由google公司Jeffery Dean等人设计，用于在分布式并行环境中处理海量数据的计算。它将一个任务分解成更多份细粒度的子任务，这些子任务在空闲的处理节点之间被调度和快速处理之后，最终通过特定的规则进行合并生成最终的结果，其处理模型有点类似于传统编程模型中的[分解和归纳]方法。 MapReduce模型将分布式运算抽象成Map和R...
复制链接

扫一扫

专栏目录