大数据运维存档(2)MapReduce分布式计算

15 篇文章 10 订阅 ¥59.90 ¥99.00
本文深入探讨了MapReduce的原理和设计思想,解释了其作为并行计算模型、软件框架和高性能计算平台的角色。MapReduce通过分而治之策略将大任务分解,利用Map和Reduce函数进行分布式计算。Map阶段处理输入数据,Reduce阶段汇总结果。文章还详细介绍了Map和Reduce阶段的工作流程,以及Combiner函数如何减少数据传输,提高效率。
摘要由CSDN通过智能技术生成

一、MapReduce是什么

总的来说:MapReduce是面向大规模数据并行处理的计算模型、框架和平台。具有以下3个层面的含义:

1.MapReduce是一个并行程序的设计模型与方法;

2.MapReduce是一个并行程序运行的软件框架;

3.MapReduce是一个基于集群的高性能并行计算平台

Hadoop中的MapReduce就是一个使用简单的软件框架,基于它写出来的应用程序能够运行在由成百上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理TB或PB级别的数据集。

二、MapReduce的基本设计思想

面向大规模数据处理,MapReduce有以下三个层面上的基本设计思想。

1.分而治之

对于大数据并行处理采用“分而治之”的设计思想

图片2.png

2.抽象成模型

把函数式编程思想构建成抽象模型----Map和Reduce

  • Map阶段(切分成一个个小的任务)
  • Reduce阶段(汇总小任务的结果)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

pub.ryan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值