MapReduce设计模式

本文讨论了四种主要的MapReduce设计模式:

1. Input-Map-Reduce-Output
2. Input-Map-Output
3. Input-Multiple Maps-Reduce-Output 

4. Input-Map-Combiner-Reduce-Output

下面是一些真实的场景,帮助您了解何时使用哪个设计模式。

Input-Map-Reduce-Output



640?wx_fmt=png

如果要执行聚合操作,则使用此模式:


640?wx_fmt=png

640?wx_fmt=png

统计工资总额,我们需要确定关键性别和价值薪酬。Map函数的输出为:


640?wx_fmt=png

中间拆分为Reduce函数提供输入:

640?wx_fmt=png

减少Reduce函数输出为:

640?wx_fmt=png

Input-Map-Output


640?wx_fmt=png

Reduce函数主要用于聚集和计算。但是,如果我们只想更改数据的格式,则使用Input-Map-Output模式:

640?wx_fmt=png

Input-Multiple Maps-Reduce-Output 


640?wx_fmt=png

在Input-Multiple Maps-Reduce-Output设计模式中,我们的输入来自两个文件,每个文件都有不同的模式。(请注意,如果两个或多个文件具有相同的模式,则不需要两个映射器。我们可以在一个映射器类中编写相同的逻辑并提供多个输入文件。)

640?wx_fmt=png

此模式也用于Reduce-Side Join:

640?wx_fmt=png

Input-Map-Combiner-Reduce-Output


640?wx_fmt=png

Apache Spark对大型和小型数据处理任务是非常有效的,因为它最好地放大了执行有效分析所需的现有工具。与其他众所周知的大数据处理引擎相比,凭借其高度可扩展性以及令人难以置信的性能,Spark最终可能会让软件吞噬整个世界

Combiner也称为half-reducer,是一个可选类,它通过接受Map类的输入然后将输出键值对传递给Reducer类来操作。Combiner功能的目的是减少Reducer的工作量。

在MapReduce程序中,20%的工作是在Map阶段完成的,这也称为数据准备阶段。这个阶段确实可以并行工作。

80%的工作是在Reduce阶段完成的,这被称为计算阶段。这项工作不是并行完成的,因此它比Map阶段慢。为了减少计算时间,Reduce阶段的一些工作可以在Combiner阶段完成。

实例


有很多部门,我们必须先按部门计算工资总额,然后按性别计算。但是,计算这些总数还有其他规则。按性别计算每个部门的总数后:

如果部门工资总额大于20万,则在总额中加25万。

如果部门工资总额大于10万,则在总额中加10万。

640?wx_fmt=png

希望我的文章对你有所启发,有什么更好的想法,欢迎留言!


640?wx_fmt=jpeg

长按二维码 ▲

订阅「架构师小秘圈」公众号

如有启发,帮我点个在看,谢谢↓

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
MapReduce设计模式是一种用于解决大规模数据处理问题的编程模式。它基于分布式计算框架MapReduce,通过将问题分解为多个独立的任务(Map任务和Reduce任务),并在多台计算机上并行执行这些任务,从而实现高效的数据处理。 MapReduce设计模式的核心思想是将输入数据集划分为多个小的数据块,然后对每个数据块进行独立的处理。在Map阶段,每个数据块会被映射为一组键值对,其中键表示数据的某个特征,值表示该特征对应的数据。在Reduce阶段,相同键的数据会被合并在一起,并进行进一步的处理和分析。 通过使用MapReduce设计模式,我们可以解决各种类型的问题,例如计数、排序、过滤、聚合等。具体的设计模式取决于问题的特点和需求。《MapReduce设计模式》这本书提供了一些常见的设计模式,可以作为解决问题的模板或通用指南。 以下是一个简单的示例,演示了如何使用MapReduce设计模式来计算一个文本文件中每个单词的出现次数: ```python # Map函数:将每个单词映射为键值对(单词, 1) def map_func(line): words = line.split() return [(word, 1) for word in words] # Reduce函数:对相同单词的计数进行累加 def reduce_func(word, counts): return (word, sum(counts)) # 输入数据 input_data = [ "Hello world", "Hello mapreduce", "MapReduce is powerful" ] # 执行MapReduce任务 result = {} for line in input_data: for word, count in map_func(line): if word in result: result[word].append(count) else: result[word] = [count] final_result = [reduce_func(word, counts) for word, counts in result.items()] # 输出结果 for word, count in final_result: print(f"{word}: {count}") ``` 输出结果: ``` Hello: 2 world: 1 mapreduce: 1 is: 1 powerful: 1 ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值