MapReduce2.0原理及基本架构

最新推荐文章于 2025-04-09 15:23:32 发布

夏末_那场未盛开的梦

最新推荐文章于 2025-04-09 15:23:32 发布

阅读量2.2k

点赞数 1

分类专栏： hadoop 文章标签： hadoop mapreduce

本文链接：https://blog.csdn.net/u014419014/article/details/78088390

版权

MapReduce是Hadoop的核心框架，用于离线数据计算。它将任务分为Map和Reduce两个阶段，程序员需定义map和reduce函数。MapReduce具有易编程、良好扩展性和高容错性等特点，适合PB级以上的离线海量数据处理。MapReduce的运行包括输入分片、map、combiner（可选）、shuffle和reduce阶段。在实际应用中，MapReduce常用于数据统计、搜索引擎索引构建、海量数据查找和复杂数据分析算法实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MapReduce2.0原理及基本架构

MapReduce是Hadoop核心框架之一，我们知道Hadoop是又分布式文件系统HDFS和分布式计算框架组成。MapReduce就是一种离线数据计算框架。那么作为计算机框架的套路，会有输入经过处理后输出结构，MapReduce就是将任务分为两个阶段：Map阶段和Reduce阶段。每个阶段都是用键值对（key/value）作为输入（input）和输出（output）。而程序员要做的就是定义好这两个阶段的函数：map函数和reduce函数。

MapReduce的特点

Hadoop MapReduce设计理念来源于2004年Google发布的MapReduce论文，随后开源界模范Google MapReduce设计出了Hadoop MapReduce。Hadoop MapReduce的主要特点为：
- 易于编程
- 良好的扩展性
- 高容错性
- 适合PB级以上的离线海量数据处理

MapReduce擅长的是离线海量的数据处理，当然也存在不擅长的方面，比如说
（1）实时计算。
像Mysql一样在毫秒级或秒级内返回数据处理结果
（2）流式计算
MapReduce的自身设计决定了他的输入数据必须是静态的，不能动态变化
（3）DAG计算
多个程序存在依赖关系，后一个应用程序的输入为前一个程序的输出。