MapReduce概念

MapReduce是一种批处理计算范型,包括Map和Reduce两个阶段。Map函数处理输入键值对,输出中间结果,Reduce函数按key聚合value。在Hadoop等分布式计算系统中,MapReduce涉及数据分片、映射、组合、分区、shuffle、归并和reduce等步骤,适合处理非结构化数据的ETL操作。然而,MapReduce的单机处理效率较低,且复杂任务的转换开发效率不高。
摘要由CSDN通过智能技术生成

参考原文:
http://code.google.com/intl/zh-CN/edu/parallel/mapreduce-tutorial.html

MapReduce其实是两个分离的阶段:map和reduce。首先看一个简单的例子:
现需要计算1w篇文章中字母‘w’的数量。这些文章以键值对(key/value)的形式存储(表一):

DocumentID(key) DocumentContent(Value)
1 “This is an article”//假设这篇文章中含有“w”字母5个
2 “This is another article”// 含有“w”字母8个
. “…”
. “…”
10000 “This is the last article” //含有“w”字母9个

下面是一段伪代码:

map(String key, String value):
// key: document ID
// value: document contents
for each word w in value:
EmitIntermediate(w, “1”);

map函数将被应用到每一个键值对。因此第一次调用为map(1, “This is a article”),最后一次是map(10000, “This is the

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值