MapReduce

最新推荐文章于 2022-03-16 23:32:41 发布

ch3rry

最新推荐文章于 2022-03-16 23:32:41 发布

阅读量281

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/ds1130071727/article/details/92725472

版权

大数据专栏收录该内容

20 篇文章 0 订阅

订阅专栏

1.MapReduce简介

2.MapReduce分而治之思想

3.MapReduce执行流程

4.MapReduce实现架构

5.MapReduce任务提交流程

MapReduce简介

MapReduce MapReduce是一个用于处理海量数据的分布式计算框架。

- 此框架解决了：

- 数据分布式存储

- 作业调度

- 容错

- 机器间通信等复杂问题

MapReduce分而治之思想

- 分治思想：分解、求解、合并

- MapReduce映射：

- 分：map（把复杂的问题分解为若干“简单任务）

- 合：reduce

MapReduce执行流程

1、数据存到HDFS上，（inputFormat）是MapReduce的一个实现类，在这个类里面提供了两个能：一个是数据切分功能还有一个是记录读取器功能。

2、在这个HDFS上通过InputFormat这么一个数据接口会把HDFS里面的大的数据会切分成5个split（就是5个分片），然后每一份代表不同的一个小块，切分完的这个每一个子的数据作为后续真正Map这么一个算子要读入的数据源，这里面分配了3个Map，这个时候可能第一个Map它的输入是来自两个split的，第二个Map它也是输入来自两个的split的，最后一个Map来自一个split。

3、Map读完这个数据处理之后，开始做一些个逻辑处理，那这个逻辑处理相当于开始把你的钱进行分门别类，分门别类之后相当于这时候Map输出就是都是已经整理好的一个结构。

4、然后这个时候分配了两个Reduce，map把数据传给reduce，那么哪些数据传给reduce，map根据key做个hash然后分配到这个reduce上，然后reduce会读这些数据并做一些计算，然后将计算的值输出到（output data）上。

（1）input split：数据从HDFS进来，调用input split函数把数据分成多个map（例子只显示了一个map）（map是做一个清洗过程）

（2）buffer in memory：将map将数据写到内存缓存区里，在内存缓存区里做计算（对数据进行处理），缓存区是有限的，但它会有个预支当达到百分之80的时候就会停掉，它会留百分之20让map继续写，然后百分之80会把整个内存区全部宽住然后往外写，这个过程叫溢写过程。

（3）partition，sort and spill to disk：百分之80的数据写入到磁盘，百分之20继续接收map的数据往缓冲区写，在往磁盘写的时候会做个partition（hash取模）、排序和溢写到磁盘上（这是百分80的数据）。排序是先对partition进行排序然后再对key进行二次的排序。

（4）merge on disk：磁盘中进行merge，把三个分区的数据合并起来，但分区不会变的。

问题：分区为什么是三个呢？

答：看reduce的数量，如果reduce就一个，那么分区就一个，因为每个分区都要传到对应的reduce中。相当于做个分发。

这部分merge的数据是map通过网络传输过来的，因为map和reduce有可能不在一台机器上，

如果是一台机器上就会涉及到IO，当然这些数据也是先传到缓存区进行了计算和partition（hash取模）、排序、溢写的操作（图没有把缓冲区那部分显示出来，但运行原理是有的），然后将数据写到磁盘进行merge，下一步就是将多个merge的数据进行再次的merge合并成最终一个文件然后写到reduce进行计算然后再出来，最后输出来的数据一定是一个文件。

注意：reduce是有两次merge过程，

partition的数量就是reduce的数量，由reduce的数量决定partition的数量。

我们只写map和reduce函数，其他都是由框架提供。