深入MapReduce

1.MapReduce的输入和输出

​ MapReduce框架运转在<key, value>键值对上,也就是说,框架把作业的输入看成是一组<key, value>键值对,同样也产生一组<key, value>键值对作为作业的输出,这两组键值对可能是不同的。
​ 一个MapReduce作业的输入和输出类型如下图所示:可以看出在整个标准的流程中,会有三组<key, value>键值对类型的存在。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-o9JL97BT-1595143594566)(F:\学习笔记\Hadoop\6.深入MapReduce\1594351510281.png)]

WordCount举例:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BE6m4T25-1595144496280)(F:\学习笔记\Hadoop\6.深入MapReduce\1594352933126.png)]

2.MapReduce的数据分区

reducetask个数跟最终输出文件的个数(文件被分成几个部分)有关系 :(对等
默认情况下只有 一个reducetask
part-r-00000
如果手动的去改变了reducetask个数
job. setNumReduceTasks(N)最终输出的结果文件就会被分成N个部分

当数据被分成几个部分之后(数据分区),他是按照什么规则分区的?

默认的分区规则:根据map输出<key, value>中的key
key的哈希取模:key. hashcode%redutaskNum

在这里插入图片描述

3.MapReduce的处理流程解析

3.1Mapper任务执行过程
  • 第一阶段是把输入目录下文件按照一定的标准逐个进行逻辑切片,形成切片规划。默认情况下,Split size = Block size。每一个切片由一个MapTask处理。( getSplits)

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-na6ogi64-1595143594574)(F:\学习笔记\Hadoop\6.深入MapReduce\1594861452861.png)]

  • 第二阶段是对切片中的数据按照一定的规则解析成<key, value>对。默认规则是把每一行文本内容解析成键值对。key 是每一行的 起始位置(单位是字节),value 是本行的文本内容。(Text InputFormat )

  • 第三阶段是调用Mapper类中的map方法。上阶段中每解析出来的一个<k,v>,调用一次map方法。每次调用map方法会输出零个或多个键值对。

  • 第四阶段是按照一定的规则对第三阶段输出的键值对进行分区。默认是只有一个区。分区的数量就是Reducer任务运行的数量。默认只有一个Reducer任务。

  • 第五阶段是对每个分区中的键值对进行排序。首先,按照键进行排序,对于键相同的键值对,按照值进行排序。比如三个键值对<2,2>、<1,3>、<2,1>,键和值分别是整数。那么排序后的结果是<1,3>、<2, 1>、<2, 2>。
    如果有第六阶段,那么进入第六阶段;如果没有,直接输出到文件中。

  • 第六阶段是对数据进行局部聚合处理,也就是combiner处理。键相等的键值对会调用一次reduce方法。经过这一阶段,数据量会减少。本阶段默认是没有的。

3.2Reduce任务执行过程详解

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xYrh4Vn3-1595143594575)(F:\学习笔记\Hadoop\6.深入MapReduce\1594862491759.png)]

  • 第一阶段是Reducer任务会主动从Mapper任务复制其输出的键值对。Mapper任务可能会有很多,因此Reducer会复制多个Mapper的输出。

  • 第二阶段是把复制到Reducer本地数据,全部进行合并,即把分散的数据合并成一个大的数据。再对合并后的数据排序。

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IUgZKYYY-1595143594576)(F:\学习笔记\Hadoop\6.深入MapReduce\1594862890368.png)]

  • 第三阶段是对排序后的键值对调用reduce方法。键相等的键值对调用一次reduce方法,每次调用会产生零个或者多个键值对。最后把这些输出的键值对写入到HDFS文件中。(Textoutputformat )

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MelodyYN

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值