MapReduce总结

最新推荐文章于 2024-11-03 16:56:30 发布

chenpi5985

最新推荐文章于 2024-11-03 16:56:30 发布

阅读量110

点赞数

文章标签：大数据

原文链接：https://my.oschina.net/sunt99/blog/724436

版权

一 Map端

第一步使用InputSplit将文件按照block大小分为一块块的，进入map阶段，分解成<key,value>的形式。

第二步进行map操作，将产生的结果放入缓存中，查看分区数目(reduce的个数),按照key进行分区，将相同的key 的数据放入分区，按照key进行排序。

第三步，如果设置了Combiner，则对相同key的数据集合进行操作，相当于本地reduce,当缓存中数目达到一定的比例时(通常是80%),刷写到磁盘中。

第四步，map结束时会将刷写如磁盘中的文件进行合并，最多10个文件merge成一个文件，进行多次merge sort

第五步，map端shuffle完毕，数据都有序的存放在磁盘中，等待reduce阶段来取。

二 Reduce 阶段

第一步，开启多个后台线程，将map的输出拷贝过来，先拷贝到内存，当内存满了，则拷贝到磁盘中，

第二步，将拷贝过来的文件，按照key相同的进行合并。

第三步，如果设置了Combiner，可能会调用，进行操作

第四步，进行reduce计算。

三汇总：

1. 并不是所有的job都适用combiner，只有操作满足结合律的才可设置combiner

Combiner最基本是实现本地key的聚合，对map输出的key排序，value进行迭代

2 分区Partitioner主要作用在于以下两点

（1）根据业务需要，产生多个输出文件；

（2）多个reduce任务并发运行，提高整体job的运行效率

3 map过程的输出是写入本地磁盘而不是HDFS，但是一开始数据并不是直接写入磁盘而是缓冲在内存中，缓存的好处就是减少磁盘I/O的开销，提高合并和排序的速度。又因为默认的内存缓冲大小是100M（当然这个是可以配置的），所以在编写map函数的时候要尽量减少内存的使用，为shuffle过程预留更多的内存，因为该过程是最耗时的过程

转载于:https://my.oschina.net/sunt99/blog/724436

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。