Hadoop Map-Reduce 算法

三十九度的风

于 2023-10-09 22:38:42 发布

阅读量87

点赞数

分类专栏：论文笔记文章标签： hadoop 大数据分布式论文笔记

本文链接：https://blog.csdn.net/FM_1793/article/details/133719546

版权

43 篇文章 0 订阅

订阅专栏

Hadoop MapReduce 算法是一种用于大规模数据处理的并行计算框架，最初由 Google 的 MapReduce 模型启发，然后由 Apache Hadoop 项目实现。该算法旨在处理大规模数据集，将数据分布式存储在多台计算机上，然后通过并行化的方式进行处理和分析。

以下是 Hadoop MapReduce 算法的核心概念和工作原理：

Map 阶段：
- 输入数据划分：首先，输入数据集被划分为多个小的数据块。
- 映射（Map）函数：用户定义的映射函数被应用于每个数据块中的每个记录。映射函数将输入记录转换为一系列键-值对（key-value pairs）。
- 键-值对排序：Map 阶段的输出键-值对根据键进行排序，以便将相同键的值组合在一起，以供后续的 Reduce 阶段使用。
Shuffle 和 Sort 阶段：
- Shuffle 阶段：在此阶段，Map 任务的输出被重新分区（根据键）并发送到 Reduce 任务。相同键的键-值对被分发到相同的 Reduce 任务。
- Sort 阶段：Reduce 任务接收到来自多个 Map 任务的键-值对，并对它们进行排序，以便后续的处理。
Reduce 阶段：
- 归并函数（Reduce 函数）：用户定义的归并函数（Reduce 函数）被应用于每个分区的键-值对，以进行聚合、汇总或其他计算操作。
- 输出：Reduce 阶段的输出可以是最终的结果，也可以是传递给下一阶段的数据。

Hadoop MapReduce 的关键特点和优点包括：

然而，Hadoop MapReduce 也有一些限制，例如不适合迭代算法和实时处理任务，因此，后续出现了更高级的数据处理框架，如 Apache Spark，用于解决这些问题。

关注