计算采用一组输入键/值对,并产生一组输出键/值对。MapReduce库的用户将计算表达为两个函数:Map和Reduce。
Input1 -> Map -> a,1 b,1 c,1
Input2 -> Map -> b,1
Input3 -> Map -> a,1 c,1
| | |
| -> Reduce -> c,2
-----> Reduce -> b,2
---------> Reduce -> a,2
由用户编写的映射采用输入对并产生一组中间键/值对。MapReduce库将与同一中间密钥 I 关联的所有中间值组合在一起,并将它们传递给Reduce函数。
Reduce函数也是由用户编写的,它接受一个中间密钥I和该密钥的一组值。 它将这些值合并在一起,形成一组可能较小的值。 通常,每次Reduce调用只产生零个或一个输出值。中间值通过迭代器提供给用户的reduce函数。这允许我们处理太大而不能存储在内存中的值列表。
每个Map()或Reduce()调用都是一个“任务”。
例
这是简单的示例worldcount。用户可以编写如下代码:
map(String key, String value):
// key: document name
// value: document contents
for each word w in value:
EmitIntermediate(w, "1");
reduce(String key, Iterator values):
// key: a word
// values: a list of counts
int result = 0;
for each v in values:
result += ParseInt(v);
Emit(AsString(result));