MapReduce原理

最新推荐文章于 2020-12-28 01:09:28 发布

李功林

最新推荐文章于 2020-12-28 01:09:28 发布

阅读量265

点赞数

分类专栏： HPE大数据学习零基础学习大数据文章标签： MapReduce 原理 Hadoop 分布式计算

本文链接：https://blog.csdn.net/weixin_43363946/article/details/83107671

版权

HPE大数据学习同时被 2 个专栏收录

22 篇文章 0 订阅

订阅专栏

零基础学习大数据

16 篇文章 0 订阅

订阅专栏

在了解MapReduce之前我们先得知道，分布式的计算，是计算向数据移动。就比如上山砍柴，只能是去山上，而不能让山直接来找你。也就是说当数据量很大的时候，我们之前管用的数据想计算移动已经不适合了。我们要把计算任务发布到要处理的数据所在的节点。这就是分布式计算的思想。

那什么是MapReduce呢？

MapReduce的由来

MapReduce是最先由Google 发布的三篇论文中MapReduce提出来的一个计算框架的实现方法。后来由Lucy创始人根据MapReduce论文设计出来的一个计算框架，就命名为MapReduce。

MapReduce是什么？

MapReduce表面上分为Map和Reduce。
map就相当于上山伐木的工人，Reduce相当于木材加工厂。
但是MapReduce是一个计算框架，他需要派出伐木工人，运输伐好的木头，加工木材输出产品，
这一整套的流程。
下面看这张图，我们来分析一下MapReduce的工作原理。

MapReduce的工作原理

在了解MapReduce工作原理之前我们先了解一下几个概念。

split

split切片，是MapReduce工作的最小单元，一个map在一个split上计算，默认情况下split于block大小约等，为什么讲约等，就是因为一个block可能会将一条记录切断，这种情况下前一个split=block+切掉的剩余部分，后一个split=下一个block-上述的剩余部分。所以说默认情况下一个split会比一个block大几KB或者小几KB。split是逻辑上的划分出来的一块区域，在物理上并无区别。

MapReduce数据格式

MapReduce中的数据有三部分组成，KV对以及标签（分区号），
刚开始map读出的split数据他们的key是数据的偏移量，value是数据的内容。MapReduce的核心思想就是将相同的key放到一个reduce中处理。标签是标注那些key是归哪个reduce处理的。

shuffle write

map先读取split的数据，进行计算处理后产生结果数据会存放到buffer里，在存放之前他首先会将这些结果数据打上标签，打标签的规则就是按照Reduce的数量，用key的HashCode对Reduce个数取余，余数作为标签，也成为分区号，这个工作是由分区器来完成的，默认的分区器是Hashpartitioner，这个过程也叫分区。
为什么要分区？

不同分区的数据会交给不同的reduce来处理。利用分区可以实现某类数据作相同处理

buffer

buffer是内存上的一块区域，大小为100M，它用来存放map读取split后计算产生的结果。当存放了80%的时候buffer就会进行内存溢写。在溢写之前MapReduce会依据我们编写的reduce方法对数据进行一次combiner，也称为小聚合。聚合结束后会对数据按照分区号排序，分区相同会按照key的值进行排序。排序完成后进行内存溢写，将数据序列化到磁盘上。至于为什么在80%的时候就开始溢写，因为内存溢写时需要将内存锁死（不锁死的话，排序操作则不会排出正确的结果），而余下的20%则可以用来继续存放溢写过程中map产生的数据，从而避免了程序阻塞。

sort

排序逻辑，基本数据类型会按照他们自己的compare方法比较排序，自定义的类型需要实现comparable接口的compare方法。

序列化

数据必须可序列化，否则将无法写到磁盘，也无法网络传输。

merge

在map处理完数据之后，产生的一堆小文件会进行一次merge（合并），由于文件以及按照分区号排好序了，而且分区内也是有序的，所以只需相同分区的文件进行一次归并排序，分区间收尾相连就合并成个一个合并后的大文件。文件整体是按照分区排好序的，分区内部也是有序的。

shuffle read

读入内存

reduce将各个节点产生的文件内自己分区的部分读入内存中，我们之前讲每个分区会对应一个reduce。这个过程也会执行内存溢写，这里的内存大小为1G的70%，同样有少许冗余拿出来做并行处理，实际大小在660M左右，也就是当读入660M数据后就会执行内存溢写，在溢写前会进行一次排序。

merge

全部数据读取完毕后将进行merge操作，同样的使用归并排序算法，整合成为一个有序的大文件。

分组

这里分组就特别简单了，将相同Key的数据分为一组送人一个reduce方法处理，至于为什么要分组，这就涉及到上面说过的MapReduce的核心思想，就是将相同的key送入一个reduce处理。分组方法：拿到那个按key排好序的文件，依次读取，如果遇到不一样的key那前面的就为一组。

reduce

拿到相同key进行处理。

流程

李功林

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce原理

在了解MapReduce之前我们先得知道，分布式的计算，是计算向数据移动。就比如上山砍柴，只能是去山上，而不能让山直接来找你。也就是说当数据量很大的时候，我们之前管用的数据想计算移动已经不适合了。我们要把计算任务发布到要处理的数据所在的节点。这就是分布式计算的思想。那什么是MapReduce呢？MapReduce的由来MapReduce是最先由Google 发布的三篇论文中MapReduce...
复制链接

扫一扫