1.MapReduce概述

想成为数据分析师的开发工程师

于 2023-04-02 13:55:32 发布

阅读量312

点赞数

分类专栏： MapReduce 文章标签： mapreduce hadoop 大数据分布式 hdfs

本文链接：https://blog.csdn.net/m0_63953077/article/details/129863988

版权

MapReduce 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.MapReduce概述

作用分析
Yarn：负责资源的管理
MapReduce：负责计算
HDFS：负责存储

1.1 MapReduce定义

Google发表了两篇论文《Google File System》《Google MapReduce》

《Google File System》简称GFS，是Google公司用于解决海量数据存储的文件系统。
《Google MapReduce》简称MapReduce,是Google的计算框架，基于GFS。

MapReduce是一个分布式运算程序的框架重要组成部分，是用户开发“基于Hadoop HDFS的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并行运行在Hadoop集群上。

1.2 MapReduce优缺点

1.2.1 MapReduce优点

(1）MapReduce易于编程
它简单的实现一些接口（比如Mapper、Reducer等），就可以完成一个分布式程序的开发，分布式程序可以运行在大量廉价的PC机器上。也就是说你写一个分布式程序，跟写一个简单的串行程序是一模一样的。因此使得MapReduce编程变得非常流行。即使对分布式不太了解，也可以开发分布式分析程序。
(2）良好的扩展性
当你的计算资源不够用的时候，你可以通过简单的增加机器来扩展它的计算能力。
(3）高容错性
MapReduce设计的初衷就是使程序能够部署在廉价的PC机器上，这就要求它具有很高的容错性。比如其中一台机器挂了，它可以把上面的计算任务转移到另外一个节点上运行，不至于这个任务运行失败，而且这个过程不需要人工参与，而完全是由Hadoop内部完成的。
(4）适合TB+级别海量数据的离线处理
可以实现数以千计的服务器集群并发工作，提供数据处理能力。

1.2.2 MapReduce缺点

(1）不擅长实时计算
MapReduce无法像MySQL、Spark、Flink一样，在毫秒或者秒级内返回结果。
(2）不擅长流式计算
流式计算的输入数据是动态的，而MapReduce的输入数据集是静态的，不能动态变化。这是因为MapReduce自身的设计特点决定了数据源必须是静态的。
(3）不擅长DAG（有向无环图）计算（造成MapReduce使用量变少的主要原因）
多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出。在这种情况下，MapReduce并不是不能做，而是使用后，每个MapReduce作业的输出结果都会写入到磁盘，会造成大量的磁盘IO，导致性能非常的低下。

1.3 MapReduce工作流程

官方给的定义：系统执行排序、将map输出作为输入传给reducer的过程称为Shuffle。（看完是不是一脸懵逼）通俗来讲，就是从map产生输出开始到reduce消化输入的整个过程称为Shuffle。如下图用黑线框出的部分：
在这里插入图片描述
圆形缓冲区介绍：

每一个map任务都会有一个圆形缓冲区。默认大小100MB（io.sort.mb属性）阈值0.8也就是80MB(mapreduce.map.sort.spill.percent属性指定） ,一旦达到阈值一个后台线程开始把内容写到(spill)磁盘的指定目录mapred.local.dir下的新建的一个溢出写文件。写入磁盘前先partition、sort、[combiner]。一个map task任务可能产生N个磁盘文件。map task运算完之后，产生了N个文件，然后将这些文件merge合成一个文件。如果N=2，合成的新文件写入磁盘前只经过patition（分区）和sort（排序）过程，不会执行combiner合并
（无论是否指定combiner类），如下图所示：
在这里插入图片描述

如果N>=3，合成的新文件写入磁盘前经过patition（分区）、sort（排序）过和combiner合并（前提是指定了combiner类），如下图所示：
在这里插入图片描述
思考：为什么只有当N>=3时，合成文件才会执行combiner呢？
这是因为如果N<3时，执行combiner虽然减少了文件的大小，但是同时产生了一定的系统开销。由于减少的文件大小不大，权衡利弊后，确定N<2时不在执行combiner操作。当该map task全部执行完之后，对应的reduce task将会拷贝对应分区的数据（该过程称为fetch），如下图所示：
在这里插入图片描述
其它的map task任务完成后，对应的reduce task也同样执行fetch操作，如下图所示：

每个map任务的完成时间可能不同，因此只要有一个任务完成，reduce任务就开始复制其输出。该阶段被称为reduce的复制阶段。reduce任务有少量复制线程，因此能够并行取得map输出。默认值是5个线程，但这个默认值可以通过设置mapred.reduce.parallel.copies属性改变。
在这里插入图片描述

复制完所有map输出后，reduce任务进入合并阶段，该阶段将合并map输出，并维持其顺序排序（相当于执行了sort），如果指定了combiner，在写入磁盘前还会执行combiner操作。那么具体是如何合并的呢？
合并因子默认是10，可以通过io.sort.factor属性设置。合并过程是循环进行了，可能叫经过多趟合并。目标是合并最小数量的文件以便满足最后一趟的合并系数。
假设有40个文件，我们不会在四趟中每趟合并10个文件从而得到4个文件。相反，第一趟只合并4个文件，随后的三趟分别合并10个文件。再最后一趟中4个已合并的文件和余下的6个（未合并的）文件合计10个文件。具体流程如下图所示：
在这里插入图片描述
注意：这并没有改变合并次数，它只是一个优化措施，目的是尽量减少写到磁盘的数据量，因为最后一趟总是直接合并到reduce。看到这里您是否理解了Shuffle的具体原理呢，如果没有，也没有关系，接下来我们通过一个wordcount案例再将整个流程梳理一遍。
在这里插入图片描述
在分区（分区规则：按首字母分四个区，分别为a-i,j-q,r-z,其它）的过程中，会将相同的单词合并到一起，将出现次数用逗号隔开，如上图所示。注意此时还没有排序。接着执行排序操作，默认排序规则是按照key的字典升序排序，当然你也可以指定排序规则，排序后如下图所示：
在这里插入图片描述
接下来执行combiner操作，将每个单词后续的1求和。

combiner的结果如上图所示
map任务执行完，产生N个spill文件，接着对N个文件进行合并，分以下两种情况：1.N<3，无论是否指定combiner类，合并文件时都不会执行combiner
在这里插入图片描述
2.N>=3,如果指定了combiner类将执行combiner操作，如下图：

接下来进入fetch（或copy）阶段

然后在reduce端进行合并
然后执行最后一趟合并，并将结果直接传给reduce