什么是文件的倒排索引?
简单讲就是一种搜索引擎的算法。过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成:“单词”和对应出现的“倒排文件”。
详细解释有一篇博客说得挺好:http://blog.csdn.net/hguisu/article/details/7962350
-
MapReduce的设计思路
整个过程包含map、combiner、reduce三个阶段,它们各自对应的key和value类型如下表所示:
|
InputKey |
InputValue |
OutputKey |
OutputValue |
Map |
Object |