简单理解MapReduce

MapReduce

概述

Map Reduce是Hadoop提供的一套用于分布式计算的模型。Map Reduce由两阶段组成,Map(映射)阶段和Reduce(规约)阶段。

特点

1,MapReduce易于编程:用户只需要简单实现MapReduce提供的一些接口,就可以完成一个分布式程序。

2,具有良好的扩展性:当前集群的就算资源不能得到满足时,可以通过简单增加机器来扩展他的计算能力。

3,高容错性:Map Reduce设计初衷就是使程序能部署在廉价的PC机器上,这就要求它具有很高的容错性。

4,适合PB级别以上海量数据的离线处理:可以实现上千台服务器集群并发工作,提供数据处理能力。

5,不擅长实时计算:Map Reduce的运行速度相对较低。

6,不擅长流式计算:Map Reduce自身设计特点决定数据源必须时静态的。

7,不擅长DAG(有向图)计算:多个应用程序存在依赖关系,使用Map Reduce后每个作业的输出结构都会写入洗盘,造成大量磁盘IO,导致性能下降。

Map Reduce工作流程

MapTask工作机制

1,Read阶段:MapTask先调用InputFormat类中的getSplits方法对文件进行切片,切片之后从每个Split中解析出一个个key——value交给map方法处理,每个键值对调用一次map方法。

2,Map阶段:map方法收到键值对后,按照指定的逻辑对键值对进行解析,之后输出解析后的新的键值对。

3,Collect阶段:需要注意的是,map方法产生键值对后,也并不是直接把键值对传递给ReduceTask,而是通过Collect方法收集输出结果,并按照指定的规则进行分区,分区后写入缓冲区。

4,Spill阶段:当缓冲区使用达到指定阈值,MapTask会将缓冲区的数据冲刷(flush)到本地磁盘上,这个过程称之为溢写(spill)。溢写步骤如下:

第一步,排序。利用快排算法,对缓冲区的数据进行排序,使分区之间有序,每个分区的数据有序。

第二步,合并。如果用户指定了Combiner类,那此时会对缓冲区的数据进行combiner操作。

第三步,写出。按照分区号的大小,将每个分区一次写入任务工作目录的临时文件spillN.out。N表示第几次溢写。

第四步,压缩。如果用户指定了对临时文件进行压缩,那就压。

第五步,记录。将分区的元数据记录到内存索引数据结构SpilRecord中,内存索引结构会写入spillN.out.index文件中。

5,Merger阶段:MapTask会将所有临时文件合并成一个大的结果文件file.out,同时生成对应的file.out.index。在merger过程中,会再次对数据进行分区,分区后排序,这次使用归并排序。如果指定了Combiner,那就合并。注意,merger的时候,默认没10个小文件合并成一个大文件,最终合并成一个大文件,file.out。

ReduceTask工作机制

1,当有5%的MapTask结束之后,就会启动ReduceTask。

2,每个ReduceTask会启动5个fetch线程获取数据。

3,fetch线程会通过http中的个体请求获取当前ReduceTask所处理的对应分区的数据。

4,fetch线程抓取来数据后,会判断数据的大小,如果超过了缓冲区大小的66%,就会将数据直接写到磁盘上。

5,拷贝完所有数据后,ReduceTask会对数据进行分组,将数据排序,合并成一个大文件后,将相同的建对应的值放到一个伪迭代器中。

6,分组后,每个键调用一次reduce方法,按照指定逻辑处理数据,形成新的键值对,并传递给OutputFotmat。

7,OutputFormat收到键值对后,按照指定格式将数据写道指定的路径。

  • 17
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值