我是菜鸟：hadoop之mapreduce设计理念和基本架构

最新推荐文章于 2022-05-27 08:18:00 发布

Kevin-Jia

最新推荐文章于 2022-05-27 08:18:00 发布

阅读量2.5k

点赞数 1

分类专栏： Hadoop学习

本文链接：https://blog.csdn.net/Jiakunboy/article/details/47320223

版权

Hadoop学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

MapReduce 是一个分布式计算框架，由编程模型和运行时环境 2部分组成。
编程模型为用户提供了非常易用的编程接口，用户只需要像编写串行程序那样实现几个简单的函数即可以完成一个分布式程序。
而复杂的节点间通信，节点实效，数据切分，都有MapReduce运行时环境完成，无需用户关心这些细节。

MRv1 第一代MapReduce计算框架

编程模型：
将问题抽象成Map和Reduce两个阶段。其中Map阶段将输入的数据解析成key/value,迭代调用map()函数处理后，再以key/value的形式输出到本地目录； Reduce阶段将key相同的value进行规约处理，最终将结果输出到ＨＤＦＳ上。其中运行时环境由JobTracker 和 TaskTracker完成，其中JobTracker 主要负责资源管理和所有的作业调度控制，而TaskTracker负责接收来自jobTracker的命令和执行。

MRv2

将JobTracker中的资源管理和作业控制功能分开，分别由不同进程ResourceManager 和ApplicationMaster实现。

MapReduce设计目标

. 易于编程
. 良好的扩展性，增加节点达到线性扩展集群
. 高容错性通过计算迁移和数据迁移等策略来提高集群的可用性和容错性。

编程模型概述

关键字： Map， Reduce
用户只是需要编写map()和reduce()2个函数。
map( ): 以key/value作为输入，以另外的key/value作为中间输出到本地磁盘。
Reduce( ): 以key/value列表作为输入，经合并key相同的value后，产生另外一些列的key/value对作为最终输出写入hdfs。