【学习历程】10 MapReduce之mapreduce核心思想

最新推荐文章于 2022-11-14 21:57:55 发布

LALALAND__

最新推荐文章于 2022-11-14 21:57:55 发布

阅读量1.8k

点赞数 1

分类专栏： BigData大数据文章标签： mapreduce

本文链接：https://blog.csdn.net/Aries1Chan/article/details/119974754

版权

BigData大数据专栏收录该内容

24 篇文章 2 订阅

订阅专栏

文章目录

一、mapreduce核心思想

MapReduce的思想核心是 “分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。Map负责 “分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Reduce负责 “合”，即对map阶段的结果进行全局汇总。

二、mapReduce编程模型

MapReduce的开发一共有八个步骤其中map阶段分为2个步骤，shuffle阶段4个步骤，reduce阶段分为2个步骤

Map阶段2个步骤

设置inputFormat类，将我们的数据切分成key，value对，输入到第二步
自定义map逻辑，处理我们第一步的输入数据，然后转换成新的key，value对进行输出

shuffle阶段4个步骤

对输出的key，value对进行分区，将相同key的数据发送到同一个reduce里面去
对不同分区的数据按照相同的key进行排序
对分组后的数据进行规约(combine操作)，降低数据的网络拷贝（可选步骤）
相同key的数据发送到同一个reduce里面去。对排序后的数据进行分组，分组的过程中，将相同key的value放到一个集合当中

reduce阶段2个步骤

对多个map的任务进行合并，排序，写reduce函数自己的逻辑，对输入的key，value对进行处理，转换成新的key，value对进行输出
设置outputformat将输出的key，value对数据进行保存到文件中

三、工作机制

请添加图片描述

3.1 MapTask工作机制

Read阶段：MapTask通过用户编写的RecordReader，从输入InputSplit中解析出一个个key/value
Map阶段：该节点主要是将解析出的key/value交给用户编写map()函数处理，并产生一系列新的key/value
Collect收集阶段：在用户编写map()函数中，当数据处理完成后，一般会调用OutputCollector.collect()输出结果。在该函数内部，它会将生成的key/value分区（调用Partitioner），并写入一个环形内存缓冲区中
Spill阶段：即“溢写”，当环形缓冲区满80%后，MapReduce会将数据写到本地磁盘上，生成一个临时文件。需要注意的是，将数据写入本地磁盘之前，先要对数据进行一次本地排序，并在必要时对数据进行合并、压缩等操作
Combine阶段：当所有数据处理完成后，MapTask对所有临时文件进行一次合并，以确保最终只会生成一个数据文件

3.2 ReduceTask工作机制

Copy阶段：ReduceTask从各个MapTask上远程拷贝一片数据，并针对某一片数据，如果其大小超过一定阈值，则写到磁盘上，否则直接放到内存中
Merge阶段：在远程拷贝数据的同时，ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并，以防止内存使用过多或磁盘上文件过多
Sort阶段：按照MapReduce语义，用户编写reduce()函数输入数据是按key进行聚集的一组数据。为了将key相同的数据聚在一起，Hadoop采用了基于排序的策略。由于各个MapTask已经实现对自己的处理结果进行了局部排序，因此，ReduceTask只需对所有数据进行一次归并排序即可
Reduce阶段：reduce()函数将计算结果写到HDFS上

LALALAND__

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
【学习历程】10 MapReduce之mapreduce核心思想

一、mapreduce核心思想     MapReduce的思想核心是**“分而治之”**，适用于大量复杂的任务处理场景（大规模数据处理场景）。Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Reduce负责“合”，即对map阶段的结果进行全局汇总。二、mapReduce编程模型     MapReduce的开发一
复制链接

扫一扫