MapReduce知识总结

最新推荐文章于 2023-07-16 10:50:35 发布

Sparky*

最新推荐文章于 2023-07-16 10:50:35 发布

阅读量1.2k

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/weixin_43362002/article/details/107563028

版权

大数据专栏收录该内容

34 篇文章 14 订阅

订阅专栏

文章目录

1.MapReduce概述
2.Map和Reduce函数
3.MapReduce的核心思想
- 3.1MapTask
- 3.2ReduceTask
4. MapReduce优缺点
- 4.1优点
- 4.2缺点
5.MapReduce工作流程
6. Shuffle详解
7.MapReduce编程

1.MapReduce概述

Map Reduce是一个分布式运算桯序的编程框架,是用户开发"基于 Hadoop的数据分析应用"的核心框架.
MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成完整的分布式运算程序,并发运行在一个 Hadoop集群上。
•MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数：Map和Reduce
MapReduce采用"分而治之"策略,一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片( split),这些分片可以被多个Map任务并行处理
MapReduce设计的一个理念就是==“计算向数据靠拢”==,而不是"数据向计算靠拢",因为,移动数据需要大量的网络传输开销MapReduce框架采用了 Master/Slave架构,包括一个 Master和若干个Save。Maste上运行 Job tracker,Save上运行 TaskTracker
Hadoop框架是用Java实现的,但是, MapReduce应用程序则不一定要用Java来写

2.Map和Reduce函数

在这里插入图片描述

3.MapReduce的核心思想

在这里插入图片描述 1）分布式的运算程序往往需要分成至少2个阶段。
2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。
3）第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。
4）MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段，如果用户的业务逻辑非常复杂，那就只能多个MapReduce程序，串行运行。

3.1MapTask

在这里插入图片描述
（1）Read阶段：MapTask通过用户编写的RecordReader，从输入InputSplit中解析出一个个key/value。
（2）Map阶段：该节点主要是将解析出的key/value交给用户编写map()函数处理，并产生一系列新的key/value。
（3）Collect收集阶段：在用户编写map()函数中，当数据处理完成后，一般会调用OutputCollector.collect()输出结果。在该函数内部，它会将生成的key/value分区（调用Partitioner），并写入一个环形内存缓冲区中。
（4）Spill阶段：即“溢写”，当环形缓冲区满后，MapReduce会将数据写到本地磁盘上，生成一个临时文件。需要注意的是，将数据写入本地磁盘之前，先要对数据进行一次本地排序，并在必要时对数据进行合并、压缩等操作。

3.2ReduceTask

在这里插入图片描述（1）Copy阶段：ReduceTask从各个MapTask上远程拷贝一片数据，并针对某一片数据，如果其大小超过一定阈值，则写到磁盘上，否则直接放到内存中。
（2）Merge阶段：在远程拷贝数据的同时，ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并，以防止内存使用过多或磁盘上文件过多。
（3）Sort阶段：按照MapReduce语义，用户编写reduce()函数输入数据是按key进行聚集的一组数据。为了将key相同的数据聚在一起，Hadoop采用了基于排序的策略。由于各个MapTask已经实现对自己的处理结果进行了局部排序，因此，ReduceTask只需对所有数据进行一次归并排序即可。
（4）Reduce阶段：reduce()函数将计算结果写到HDFS上。

4. MapReduce优缺点

4.1优点

MapReduce易于编程：它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的PC机噩上运行.也就是说你写一个分布式程序,跟写一个简单的串行程序是一植一样的.就是因为这个特点使得 Map reduce编程变得非常流行.
良好的扩展性:当你的计算资源不能得到满足的时候,你可以通过简单的增加机器来扩展它的计算能力
高容错性:Map reduce设计的初衷就是使程序能够部署在廉价的PC机器上,这就要求它具有很高的容错性.比如其中一台机器挂了,它可以把上面的计算任务转移到另外一个节点上运行,不至于这个任务运行失败,而且这个过程不需要人工参与,而完全是由 Hadoop内部完成的
4.适合PB级以上海量数据的离线处理：可以实现上干台服务器集群并发工作,提供数据处理能力

4.2缺点

不擅长实时计算：MapReduce无法像MySQL一样,在毫秒或者秒级内返回结果。
不擅长流式计算：流式计算的输入数据是动态的,而 Mapreduce的输入数据集是静态的,不能动态变化.这是因为 MapReduce自身的设计特点定了数据源必须是静态的.
不擅长DAG(有向图)计算：多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出.在这种情兄下, Map reduce并不是不能做,而是使用后,每个MapReduce作业的输出结果都会写入到磁盘,会造成大量的磁盘IO,导致性能非常的低下

5.MapReduce工作流程

流程图：
在这里插入图片描述

不同的Map任务之间不会进行通信不同的
Reduce任务之间也不会发生任何信息交换
用户不能显式地从一台机器向另一台机器发送消息
所有的数据交换都是通过 MapReduce框架自身去实现的
小结
MapReduce执行的全过程包括以下几个主要阶段:
从分布式文件系统读入数据、执行Map任务输出中间结果、通过 Shuffle阶段把中间结果分区排序整理后发送给 Reduce任务、执行 Reduce任务得到最终结果并写入分布式文件系统.在这几个阶段中, Shuffle阶段非常关键,必须深刻理解这个阶段的详细执行过程

6. Shuffle详解

6.1Shuffle过程简介

在这里插入图片描述

6.2. Map端的Shuffle过程

在这里插入图片描述

6.3. Reduce端的Shuffle过程

在这里插入图片描述

7.MapReduce编程

用户编写的程序分成三个部分：Mapper、Reducer和Driver。

7.1Mapper阶段

(1)用户自定义的 Mapper要事自己的父类
(2) Mapper的输入据是kv对的形式(KV的类型可自定义)
(3) Mapper中的业务逻辑写在map方法中
(4) Mapper的出数据是kv对的形式(KV的类型可自定义)
(5)map()方法( Map Task进程)对每一个<K,v>调用一次

7.2Reduce阶段

(1)用户自定义的 Reducer要继事自己的父类
(2) Reducer的输入数据类型对应 Mapper的输出数据类型,也是kv
(3) Reducer的业务逻辑写在 reduced()方法中
(4) Reducetask进程对每一组相同k的<k,v>组调用一次 reduced方法

7.3Driver阶段

相当于YARN隼群的客户端,用于提交我们整个程序到YARN集群,提交的是封装了 Map Reducer程序相关运行参数的job对象

Sparky*

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
MapReduce知识总结

文章目录1.MapReduce概述2.Map和Reduce函数3.MapReduce的核心思想3.1MapTask3.2ReduceTask4. MapReduce优缺点4.1优点4.2缺点5.MapReduce工作流程6. Shuffle详解6.1Shuffle过程简介6.2. Map端的Shuffle过程6.3. Reduce端的Shuffle过程7.MapReduce编程7.1Mapper阶段7.2Reduce阶段7.3Driver阶段1.MapReduce概述Map Reduce是一个分布式运
复制链接

扫一扫