MapReduce总结

一 Map端

第一步使用InputSplit将文件按照block大小分为一块块的,进入map阶段,分解成<key,value>的形式。

第二步进行map操作,将产生的结果放入缓存中,查看分区数目(reduce的个数),按照key进行分区,将相同的key 的数据放入分区,按照key进行排序。

第三步,如果设置了Combiner,则对相同key的数据集合进行操作,相当于本地reduce,当缓存中数目达到一定的比例时(通常是80%),刷写到磁盘中。

第四步,map结束时会将刷写如磁盘中的文件进行合并,最多10个文件merge成一个文件,进行多次merge sort

第五步,map端shuffle完毕,数据都有序的存放在磁盘中,等待reduce阶段来取。

二 Reduce 阶段

 第一步,开启多个后台线程,将map的输出拷贝过来,先拷贝到内存,当内存满了,则拷贝到磁盘中,

第二步,将拷贝过来的文件,按照key相同的进行合并。

第三步,如果设置了Combiner,可能会调用,进行操作

第四步,进行reduce计算。

 

三 汇总:

1. 并不是所有的job都适用combiner,只有操作满足结合律的才可设置combiner

Combiner最基本是实现本地key的聚合,对map输出的key排序,value进行迭代

分区Partitioner主要作用在于以下两点

(1)根据业务需要,产生多个输出文件;

(2)多个reduce任务并发运行,提高整体job的运行效率

3  map过程的输出是写入本地磁盘而不是HDFS,但是一开始数据并不是直接写入磁盘而是缓冲在内存中,缓存的好处就是减少磁盘I/O的开销,提高合并和排序的速度。又因为默认的内存缓冲大小是100M(当然这个是可以配置的),所以在编写map函数的时候要尽量减少内存的使用,为shuffle过程预留更多的内存,因为该过程是最耗时的过程

 

 

转载于:https://my.oschina.net/sunt99/blog/724436

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值