四种常见的MapReduce设计模式

最新推荐文章于 2021-12-14 16:58:29 发布

一个扑向大数据的pre北漂

最新推荐文章于 2021-12-14 16:58:29 发布

阅读量717

点赞数

分类专栏： spark学习

spark学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

四种常见的MapReduce设计模式

使用MapReduce解决任何问题之前，我们需要考虑如何设计。并不是任何时候都需要map和reduce job。

整个MapReduce作业的阶段主要可以分为以下四种：

Input-Map-Reduce-Output
Input-Map-Output
Input-Multiple Maps-Reduce-Output
Input-Map-Combiner-Reduce-Output

下面我将一一介绍哪种场景使用哪种设计模式。

Input-Map-Reduce-Output

在这种设计模式中，我们有两个输入文件，其文件的格式都不一样，
文件一的格式是性别作为名字的前缀，比如：Ms. Shital Katkar或Mr. Krishna Katkar
文件二的格式是性别的格式是固定的，但是其位置不固定，比如 Female/Male, 0/1, F/M

在MapReduce中，Combiner也被成为Reduce，其接收Map端的输出作为其输入，并且将输出的 key-value 键值对作为Reduce的输入。Combiner的使用目的是为了减少数据传入到Reduce的负载。

在MapReduce程序中，20%的工作是在Map阶段执行的，这个阶段也被成为数据的准备阶段，各阶段的工作是并行进行的。

80%的工作是在Reduce阶段执行的，这个阶段被成为计算阶段，其不是并行的。因此，次阶段一般要比Map阶段要满。为了节约时间，一些在Reduce阶段处理的工作可以在combiner阶段完成。

假设我们有5个部门(departments)，我们需要计算个性别的总薪水。但是计算薪水的规则有点奇怪，比如某个性别的总薪水大于200k，那么这个性别的总薪水需要加上20k；如果某个性别的总薪水大于100k，那么这个性别的总薪水需要加上10k。如下：

以上四种MapReduce模式只是最基本的，我们可以根据自己问题设计不一样的设计模式。

转载公众号：Hadoop技术博文

一个扑向大数据的pre北漂

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。