（转）MapReduce流程

最新推荐文章于 2024-08-10 16:30:06 发布

Liu Zhian

最新推荐文章于 2024-08-10 16:30:06 发布

阅读量779

点赞数

分类专栏： BigData

BigData 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

转载自：https://blog.csdn.net/u013068377/article/details/83013157

在使用java编写MaReduce程序之前，先让我们解决一个基本问题——MapReduce是什么？它的运行机制是怎么样的？

能够打开这篇文章的读者，应该或多或少都有一些技术基础。但是为了使得下面的解说更加清楚明白，这里还是要简单描述一下。

一、MapReduce是什么

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。
概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言
里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。

当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）
函数，用来保证所有映射的键值对中的每一个共享相同的键组。

——百度百科

是不是还没看懂？用一句话总结一下：

MapReduce是一种适用于大数据下分布式并行计算的编程模型，只要按照规定完成Map（分发数据）和Reduce（处理数据）两部分工作，就可以快速得出结果。

二、MapReduce的运行机制

从MapReduce的名字以及上面的介绍中，应该也可以知道，MapReduce实现中最重要的两个概念：Map和Reduce

1、Map

Map的任务是：处理原始数据、为数据打标签、对数据进行分发（严格来说这并不完全是map的职责）

处理原始数据

这一阶段是对原始数据进行预处理的阶段，可以从行和列两个角度来考虑。

行：比如我们需要对数据按照时间过滤，只选择本周一的数据，其他数据过滤掉不处理。

列：比如原始数据有10列，我们只需要其中的5列，其他列过滤掉不处理。

举例：

hdfs上有一周的支出数据，我们想统计周一周二的支出情况，接下来我们会一步步解释这个过程。下图是其中一部分记录：

1.jpg | center | 827x134

map：处理原始数据

可以看出过滤掉了非周一周二的数据，并且删除了使用人的字段。

为数据打标签

map处理完原始数据之后，接下来就要将数据分组，从而分配给合适的reduce去处理，分组的第一步就是打标签。

举例：

2.jpg | center | 827x155

map：为数据打标签

可以看出，对每一条数据加了一条对应天数的标签。

对数据进行分发

打完标签之后，就需要对数据进行分发，严格来说，这并不完全属于Map的职责，其中也用到了一个神秘的中间环节：shuffle。不过入门来看，我们就单纯任务这属于Map。

分发的意思是，打完标签之后，要对数据进行分类处理，然后再发送给Reduce；分类的依据，就是上面对其打的自定义标签。

举例：

3.jpg | center | 818x242

map：分发有标签的数据

可以看出，对每一条数据，按照标签分配，由原来的一个列表，变成了现在的两个列表。

Map阶段到此完成，接下来的任务就是要等着Reduce来取数了。

2、Reduce

Reduce的任务是：拉取Map分类好的数据（这也并不完全是Reduce的职责）、执行具体的计算

2.1、拉取Map分类好的数据

之前说到，Map已经将数据分类，我们直接拉取Reduce需要的数据就好了；但是要注意的是，我们是在一个分布式的环境中执行的任务，所以，Reduce的数据来源可能是多个Map中属于自己的块。

举例：

5.jpg | center | 827x498

reduce：获取map分发的数据

可以看到，Reduce按照Map分类的key拉取到了自己应该处理的当日数据。

2.2、执行具体的计算

Reduce在拿到所有自己的数据之后，接下来就可以执行自定义的计算逻辑了，最简单的就是计数、去重。

举例：

6.jpg | center | 792x379

reduce：执行具体的计算

可以看到，Reduce已经完成了所需要的单日支出计算功能。

说明

Map和Reduce的职责并不是完全绝对的，比如过滤操作可以在Map，也可以在Reduce，只是因为在Map做可以减少传输的数据量，减少网络IO压力和时间消耗，所以做了上述的分工。

三、拯救你于水火之中

如果以上说明还不够形象的话，那么可以参考下面这句话：

如果我们的任务是数清楚一袋子水果糖里，不同口味的糖有多少块。那么Map就是把糖分类，比如苹果味的放在第一个盘子里，草莓味的放在第二个盘子里；而Reduce就是执行的具体的计算任务，比如一个人数第一个盘子里的苹果味糖有几块，另一个人数第二个盘子里的草莓味糖有几块。最后通过这两个阶段来完成最开始的目标。

四、图解MapReduce原理

硬核，慎入！

之前说的原理更多的是从单个Map或者Reduce角度进行讲解的，接下来我们从整个集群的角度去看一下一个MapReduce任务的具体执行过程。

不说废话，先上图。

7.jpg | center | 827x380

MapReduce工作原理原理

1 map先从HDFS上读取不同的文件，然后对其进行map操作，生成一个个带有标签（也就是key）的数据块。

2 带有相同标签（key）的数据块，会被分配到同一个Reduce上进行操作，从而得到最终结果，并将最终结果写回HDFS。

再看一个更细节一点的：单词计数的MapReduce执行过程

8.jpg | center | 827x562

单词计数的MapReduce流程

1 可以看到因为不是自带分区的文件，而是文本文件，所以多了一个拆分的步骤。

2 接下来对分割的文本进行Map阶段的操作，其分发的标签（key）是单词本身，分发的内容是每一段文本里出现该单词的数量。

3 接下来会进行一个分发操作，即相同标签（key）的数据会被收集到一起。

4 Reduce对收集之后分配过来的数据进行处理，最终结果汇总，就是单词计数的结果。

Liu Zhian

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
（转）MapReduce流程

转载自：https://blog.csdn.net/u013068377/article/details/83013157在使用java编写MaReduce程序之前，先让我们解决一个基本问题——MapReduce是什么？它的运行机制是怎么样的？能够打开这篇文章的读者，应该或多或少都有一些技术基础。但是为了使得下面的解说更加清楚明白，这里还是要简单描述一下。一、MapReduce是什么Ma...
复制链接

扫一扫

专栏目录