Hadoop深入学习:MapReduce的编程模型

MapReduce的一个设计目标就是易用性,它提供了一个高度抽象化的非常简单的编程模型。
MapReduce这个分布式计算框架,其应用场景往往是那些可以将任务分解成相互独立的子问题。基于这个特点, MapReduce编程模型将分布式编程分成了五个步骤:
1),迭代遍历输入数据,并将数据解析成简单的key/value键值对的形式,该阶段段对应着InputFormat组件;
2)、将输入的key/value映射成另外的key/value数值对,该阶段对应着Mapper组件;
3)、依据key对所有的中间数据进行分组儿,该阶段对应着Partitiner组件;
4)、以组为单位对数据进行reduce处理,该阶段对应着Reducer组件;
5)、将最终产生的数据以key/value的形式保存到文件中,该阶段对应着OutputForamt组件。

下面然我们来看一下MapReduce编程模型接口的示意图:
[img]http://dl2.iteye.com/upload/attachment/0085/0345/1339929f-bddf-3b09-a0ef-ba2452265ffc.jpg[/img]

在接下来的几节中我们将着重学习这个编程接口的组件。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值