Hadoop 教程 - Hadoop MapReduce入门与基础理论

用心去追梦

于 2024-06-27 09:54:12 发布

阅读量217

点赞数 3

文章标签： hadoop mapreduce 大数据

本文链接：https://blog.csdn.net/qq_33240556/article/details/140005410

版权

Hadoop MapReduce 是 Apache Hadoop 项目中的一个核心组件，专为处理和分析大规模数据集而设计。以下是关于 Hadoop MapReduce 入门与基础理论的简要介绍：

MapReduce 基本概念

1. 分布式计算模型：
MapReduce 是一种编程模型，用于实现分布式计算，将复杂的计算任务拆分成两个主要阶段：Map（映射）和 Reduce（归约）。这种模型特别适合在大量数据上执行批处理作业。

2. Map 阶段：

输入分片（Input Split）： 数据首先被分割成多个块，每个块称为一个输入分片。
Mapper 函数： 对每个输入分片执行一个Mapper函数，它的任务是对每条记录进行处理，产生一组中间的 key-value 对。

3. Shuffle 和 Sort：

在Map阶段之后，所有中间结果会被按照key值进行排序和分区（Shuffle），然后相同key值的数据会被汇聚到一起准备进入Reduce阶段。

4. Reduce 阶段：

Reducer 函数： 接收特定key的所有value值，对其进行聚合或进一步处理，输出最终的key-value对结果。
这个阶段可以汇总数据、执行计数、平均值计算等聚合操作。

5. Combiner（可选）：

在Map和Reduce之间，可选地使用Combiner减少网络传输量，通过局部聚合Map输出。

6. Partitioner（分区器）：

决定哪个key-value对应该发送给哪个Reducer处理，通常基于key的哈希值进行划分。

MapReduce 工作流程

作业提交： 用户提交一个MapReduce作业到JobTracker（在YARN架构中为ResourceManager）。
任务分配： JobTracker分配任务给TaskTracker（YARN中为NodeManager）。
执行Map任务： 数据所在节点上的TaskTracker执行Map任务，处理数据并生成中间结果。
Shuffle和Sort： 中间结果经过排序和分区后准备Reduce阶段。
执行Reduce任务： Reduce任务在不同节点上执行，处理来自Map阶段的输出并生成最终结果。
结果存储： 最终结果通常被写回到HDFS或其他存储系统中。

MapReduce 特点

扩展性： 能够轻松处理PB级别的数据。
容错性： 自动处理硬件故障，确保作业完成。
简化编程： 开发者只需关注Map和Reduce两个函数的实现，而不必关心分布式细节。
资源管理： 在YARN架构下，资源管理由ResourceManager和NodeManager负责，进一步提升了资源利用率和灵活性。

学习MapReduce

学习MapReduce时，建议从编写简单的WordCount程序开始，这是一个经典的入门示例，可以让你理解Map和Reduce的基本工作原理。随后，可以通过实践更复杂的数据处理任务加深理解，并学习如何优化MapReduce作业，比如调整分区策略、合理使用Combiner等高级技巧。同时，熟悉Hadoop生态系统中的其他工具（如HDFS、YARN）以及如何在实际集群环境中部署和监控MapReduce作业也是十分重要的。