深入MapReduce

最新推荐文章于 2022-01-06 17:27:33 发布

MelodyYN

最新推荐文章于 2022-01-06 17:27:33 发布

阅读量176

点赞数

分类专栏： Hadoop

本文链接：https://blog.csdn.net/qq_36593748/article/details/107445933

版权

Hadoop 专栏收录该内容

29 篇文章 0 订阅

订阅专栏

文章目录

1.MapReduce的输入和输出

MapReduce框架运转在<key, value>键值对上，也就是说，框架把作业的输入看成是一组<key, value>键值对，同样也产生一组<key, value>键值对作为作业的输出，这两组键值对可能是不同的。
一个MapReduce作业的输入和输出类型如下图所示:可以看出在整个标准的流程中，会有三组<key, value>键值对类型的存在。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-o9JL97BT-1595143594566)(F:\学习笔记\Hadoop\6.深入MapReduce\1594351510281.png)]$

WordCount举例：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BE6m4T25-1595144496280)(F:\学习笔记\Hadoop\6.深入MapReduce\1594352933126.png)]$

2.MapReduce的数据分区

reducetask个数跟最终输出文件的个数(文件被分成几个部分)有关系 :（对等）
默认情况下只有一个reducetask
part-r-00000
如果手动的去改变了reducetask个数
job. setNumReduceTasks(N)最终输出的结果文件就会被分成N个部分

当数据被分成几个部分之后(数据分区)，他是按照什么规则分区的？

默认的分区规则：根据map输出<key, value>中的key
key的哈希取模：key. hashcode%redutaskNum

在这里插入图片描述

3.MapReduce的处理流程解析

3.1Mapper任务执行过程

第一阶段是把输入目录下文件按照一定的标准逐个进行逻辑切片，形成切片规划。默认情况下，Split size = Block size。每一个切片由一个MapTask处理。( getSplits)

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-na6ogi64-1595143594574)(F:\学习笔记\Hadoop\6.深入MapReduce\1594861452861.png)]$
第二阶段是对切片中的数据按照一定的规则解析成<key, value>对。默认规则是把每一行文本内容解析成键值对。key 是每一行的起始位置(单位是字节)，value 是本行的文本内容。(Text InputFormat )
第三阶段是调用Mapper类中的map方法。上阶段中每解析出来的一个<k,v>，调用一次map方法。每次调用map方法会输出零个或多个键值对。
第四阶段是按照一定的规则对第三阶段输出的键值对进行分区。默认是只有一个区。分区的数量就是Reducer任务运行的数量。默认只有一个Reducer任务。
第五阶段是对每个分区中的键值对进行排序。首先，按照键进行排序，对于键相同的键值对，按照值进行排序。比如三个键值对<2,2>、<1,3>、<2,1>，键和值分别是整数。那么排序后的结果是<1,3>、<2, 1>、<2, 2>。
如果有第六阶段，那么进入第六阶段;如果没有，直接输出到文件中。
第六阶段是对数据进行局部聚合处理，也就是combiner处理。键相等的键值对会调用一次reduce方法。经过这一阶段，数据量会减少。本阶段默认是没有的。

3.2Reduce任务执行过程详解

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xYrh4Vn3-1595143594575)(F:\学习笔记\Hadoop\6.深入MapReduce\1594862491759.png)]$

第一阶段是Reducer任务会主动从Mapper任务复制其输出的键值对。Mapper任务可能会有很多，因此Reducer会复制多个Mapper的输出。
第二阶段是把复制到Reducer本地数据，全部进行合并，即把分散的数据合并成一个大的数据。再对合并后的数据排序。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IUgZKYYY-1595143594576)(F:\学习笔记\Hadoop\6.深入MapReduce\1594862890368.png)]$
第三阶段是对排序后的键值对调用reduce方法。键相等的键值对调用一次reduce方法，每次调用会产生零个或者多个键值对。最后把这些输出的键值对写入到HDFS文件中。（Textoutputformat ）

MelodyYN

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
深入MapReduce

文章目录1.MapReduce的输入和输出2.MapReduce的数据分区3.MapReduce的处理流程解析3.1Mapper任务执行过程3.2Reduce任务执行过程详解1.MapReduce的输入和输出 MapReduce框架运转在<key, value>键值对上，也就是说，框架把作业的输入看成是一组<key, value>键值对，同样也产生一组<key, value>键值对作为作业的输出，这两组键值对可能是不同的。一个MapReduce作业的输入和输出
复制链接

扫一扫