MapReduce原理（分布式计算模型）----------总结

最新推荐文章于 2024-09-11 14:10:29 发布

weixin_34087307

最新推荐文章于 2024-09-11 14:10:29 发布

阅读量174

点赞数

文章标签：大数据

原文链接：http://blog.51cto.com/hellowode/1367668

版权

MapReduce：

1.是一个分布式的计算模型，用于解决海量数据的计算问题。

2.由两部分组成，Map和Reduce

3.Map和Reduce的参数都是key，value的形式

MapReduce的执行过程：

1.Map任务处理：

1.1读取HDFS中的文件作为输入，解析为key，value对。对输入文件的每一行，解析成key、value对。每一个键值对调用一次map函数。（k1,v1）；

1.2在复写的map函数中，编写处理逻辑，对输入的key、valu对进行处理，转换成新的key、value（k2,v2）；

1.3对输出的结果进行分区（key相同的放在一块）；

1.4对不同的分区的数据，按照key进行排序、分组。-----分组：相同的key的value放到一个集合中。

1.5分组后的数据进行规约。----把大的数据变为小的数据（可选步骤）（k2,v2）

2.Reduce任务处理：

2.1对多个map任务的输出，按照不同的分区，通过网络拷贝到不同的reduce节点上。

2.2对多个map任务的输出进行合并，排序。写reduce函数实现自己的逻辑，对输入的k2,v2进行处理，转换成新的key，value（k3,v3）

2.3把reduce的输出保存到文件中。

-----------------------------规约：

job.setCombinerClass(MyReduce.class);//形参是自定义一的reduce类

1.为什么使用combiner：

Combiner发生在map端，对数据进行规约处理，数据量变小，网络传输变少，传输到reduce的数据量变小，传输时间变短，作业的整体时间变短。

2.为什么Combiner不作为mapreduce的标配

因为不是所有的算法都适合使用Combiner处理，如求平均数

3.Combiner本身已经执行了reduce操作，为什么在Reducer阶段还是要执行reduce操作

Combiner发生在map端，处理一个任务所接收的文件中的数据，不能跨map执行，只有reduce可以接收多个map任务处理的数据

转载于:https://blog.51cto.com/hellowode/1367668

weixin_34087307

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。