本例子来源于《hadoop-开启通向云计算的捷径》(刘鹏)。
倒排索引是文档搜索系统中常用的数据结构。它主要用来存储某个词组在一个或多个文档中的位置映射。通常情况下,倒排索引由词组以及相关的文档列表组成。如下表所示。
表1:
单词 文档列表
单词1 | 文档1 | 文档2 | 文档3 |
单词2 | 文档2 | 文档4 | 文档5 |
单词3 | 文档3 | 文档5 | 文档6 |
从表1可以看出单词1出现在{文档1,文档2,文档3},单词2出现在{文档2,文档4,文档5},单词3出现在{文档3,文档5,文档6}。
实际使用中还需要给文档添加一个权值,用来表示该词组与文档的相关性。如表2所示。
表2:
单词 文档列表
单词1 | 文档1 | 权 | 文档2 | 权 | 文档3 | 权 |
单词2 | 文档2 | 权 | 文档4 | 权 | 文档5 | 权 |
单词3 | 文档3 | 权 | 文档5 | 权 | 文档6 | 权 |
这里的权重,一般可以使用词频,即记录词组在文档中出现的次数。更复杂的权重可以使用TF-IDF算法等等。
本例子以词频为权重,使用MapReduce来实现倒排索引。
举个例子:
现有2个文件1.txt,2.txt,其内容分别是:
1.txt
hello world
2.txt
hello hadoop
则相应的倒排索引:
"hello": 1.txt,1;2.txt,1