MapReduce

最新推荐文章于 2024-09-15 10:32:33 发布

Git122

最新推荐文章于 2024-09-15 10:32:33 发布

阅读量579

点赞数 17

分类专栏： hadoop 文章标签： mapreduce 大数据

本文链接：https://blog.csdn.net/2302_76694571/article/details/140653716

版权

hadoop 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

MapReduce 【分布式计算架构】【核心思想==>分布式计算】

MapReduce的设计思想

分而治之，构建抽象模型（Map 和 Reduce 函数），隐藏系统层细节

MapReduce 可以在分布式集群的多台服务器上启动同一个计算程序，每个服务器上的进程都可以读取本服务器上要处理的数据块进行计算，因此，大量的数据就可以同时计算。

MapReduce 的特点

优点：

易于编程，可扩展性，高容错性，高吞吐量

不适用领域：

难以实时计算：MapReduce 无法像 Mysql 一样，在毫秒或者秒级内返回结果

不适合流式计算：流式计算的输入数据时动态的，而 MapReduce 的输入数据集是静态的，不能动态变化

不适合DGA计算（顺序、共享、交换、效率）：多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出。在这种情况下，MapReduce 并不是不能做，而是使用后，每个MapReduce 作业的输出结果都会写入到磁盘，会造成大量的磁盘IO，导致性能非常的低下。

MapReduce 的计算过程

MapReduce 的计算过程分成了两个部分：

一部分是 map 过程，每个服务器会启动多个 map 过程，map 会优先读取本地数据进行计算，计算后输出一个 <key,value> 集合 m，

另一部分是 reduce 部分，MapReuce 在每个服务器上都会启动多个 reduce 进程，然后对所有 map 输出的 <key,value> 进行 shuffle 操作。

shuffle 操作就是将相同的 key 发送到同一个 reduce 进程中，在 reduce 中完成数据计算。

MapReduce的详细执行流程（分而治之）

在这里插入图片描述

（1）文本切片（Text Slicing）:

输入的文本数据被分割成多个切片（slices），每个切片由一个 Map Task 处理。这一步骤确保了数据可以在集群中的多个节点上并行处理。

MapReduce 框架使用 InputFormat 模块做 Map 前的预处理（进行逻辑切分），比如验证输入的格式是否符合输入定义，然后将输入的文件切分为逻辑上的多个 InputSplit，InputSplit 是 MapReduce 对文件进行处理和运算的实际单位（逻辑概念），每个InputSplit没有对文件进行实际切割，只是记录了要处理的数据的位置和长度。

初始数据集被分割成多个数据块，每个数据块通常包含一个或多个文件，这些数据块会分布在计算集群中的不同节点上。

Map 阶段

Map阶段是MapReduce任务的第一个阶段，在这个阶段中，每个Map任务都会并行地处理一个数据块。

（2）Map Task 读取文件（Map Task Reads File）:

Map Task 通过 TextInputFormat 读取文本数据。TextInputFormat 将文本数据转换为键值对，其中键（Key）是行的起始偏移量，值（Value）是整行文本内容。这个过程是通过 RecordReader 的 read 方法实现的。（InputSplit是逻辑切分，所以需要通过RecordReader(RR)根据InputSplit的信息来处理InputSplit中的具体记录）

（3）Mapper 处理数据（Mapper Processes Data）:

Map Task 中的 Mapper 函数接收来自 RecordReader 的键值对，并对其进行处理，形成新的键值对。这些新的键值对通过 context.write 输出到 OutputCollector 收集器。

（4）输出到环形缓冲区（Output to Circular Buffer）:

OutputCollector 将收集到的键值对写入到环形缓冲区中。环形缓冲区有一个默认大小（例如 100MB），并且通常只使用其 80% 的空间，以避免溢出。（环形缓冲区其实是一个数组，前面写着，后面有个组件清理着）

（5）Spill 溢出（Spill Overflow）:

当环形缓冲区中的数据量达到其大小的 80% 时，会触发 Spill 溢出过程。在这一过程中，数据会被写入到本地磁盘上的文件中，以防止溢出。

Shuffle 阶段

（6）Shuffle 过程（Shuffle Process）:

Shuffle 是 MapReduce 中的一个关键过程，它包括分区（Partition）、排序（Sort）和局部合并（Combiner）三个步骤。Map Task 的输出会根据键值对的键进行分区和排序，如果有 Combiner，则会进行局部值的合并。

（7）分区和排序（Partitioning and Sorting）:

分区：

通过Partitioner接口对这些键值对进行分区