MapReduce概念

最新推荐文章于 2023-10-22 02:42:12 发布

OnlyQi

最新推荐文章于 2023-10-22 02:42:12 发布

阅读量2.3k

点赞数

分类专栏： Hadoop生态系统文章标签： mapreduce

本文链接：https://blog.csdn.net/OnlyQi/article/details/50477899

版权

MapReduce是一种批处理计算范型，包括Map和Reduce两个阶段。Map函数处理输入键值对，输出中间结果，Reduce函数按key聚合value。在Hadoop等分布式计算系统中，MapReduce涉及数据分片、映射、组合、分区、shuffle、归并和reduce等步骤，适合处理非结构化数据的ETL操作。然而，MapReduce的单机处理效率较低，且复杂任务的转换开发效率不高。

摘要由CSDN通过智能技术生成

参考原文：
http://code.google.com/intl/zh-CN/edu/parallel/mapreduce-tutorial.html

MapReduce其实是两个分离的阶段：map和reduce。首先看一个简单的例子：
现需要计算1w篇文章中字母‘w’的数量。这些文章以键值对(key/value)的形式存储(表一)：

DocumentID(key)	DocumentContent(Value)
1	“This is an article”//假设这篇文章中含有“w”字母5个
2	“This is another article”// 含有“w”字母8个
.	“…”
.	“…”
10000	“This is the last article” //含有“w”字母9个