本文讨论了四种主要的MapReduce设计模式:
1. Input-Map-Reduce-Output
2. Input-Map-Output
3. Input-Multiple Maps-Reduce-Output
4. Input-Map-Combiner-Reduce-Output
下面是一些真实的场景,帮助您了解何时使用哪个设计模式。
Input-Map-Reduce-Output
如果要执行聚合操作,则使用此模式:
统计工资总额,我们需要确定关键性别和价值薪酬。Map函数的输出为:
中间拆分为Reduce函数提供输入:
减少Reduce函数输出为:
Input-Map-Output
Reduce函数主要用于聚集和计算。但是,如果我们只想更改数据的格式,则使用Input-Map-Output模式:
Input-Multiple Maps-Reduce-Output
在Input-Multiple Maps-Reduce-Output设计模式中,我们的输入来自两个文件,每个文件都有不同的模式。(请注意,如果两个或多个文件具有相同的模式,则不需要两个映射器。我们可以在一个映射器类中编写相同的逻辑并提供多个输入文件。)
此模式也用于Reduce-Side Join:
Input-Map-Combiner-Reduce-Output
Apache Spark对大型和小型数据处理任务是非常有效的,因为它最好地放大了执行有效分析所需的现有工具。与其他众所周知的大数据处理引擎相比,凭借其高度可扩展性以及令人难以置信的性能,Spark最终可能会让软件吞噬整个世界。
Combiner也称为half-reducer,是一个可选类,它通过接受Map类的输入然后将输出键值对传递给Reducer类来操作。Combiner功能的目的是减少Reducer的工作量。
在MapReduce程序中,20%的工作是在Map阶段完成的,这也称为数据准备阶段。这个阶段确实可以并行工作。
80%的工作是在Reduce阶段完成的,这被称为计算阶段。这项工作不是并行完成的,因此它比Map阶段慢。为了减少计算时间,Reduce阶段的一些工作可以在Combiner阶段完成。
实例
有很多部门,我们必须先按部门计算工资总额,然后按性别计算。但是,计算这些总数还有其他规则。按性别计算每个部门的总数后:
如果部门工资总额大于20万,则在总额中加25万。
如果部门工资总额大于10万,则在总额中加10万。
希望我的文章对你有所启发,有什么更好的想法,欢迎留言!
长按二维码 ▲
订阅「架构师小秘圈」公众号
如有启发,帮我点个在看,谢谢↓