单词-文档矩阵
单词\文档 | 文档1 | 文档2 | 文档3 |
---|---|---|---|
单词1 | |||
单词2 |
倒排索引
基本概念
其实是对单词-文档的一种具体存储形式。包括单词词典和倒排文件。
单词词典: 文档集合中出现过的单词组成的字符串集合。
单词为索引单位,包含单词信息和指向倒排列表的指针。
倒排列表:基本单位是倒排项,包含出现某个单词的文本列表以及在文档中的位置信息。
倒排文件:顺序存储各个单词的倒排列表,以文本形式存储在磁盘中。
实例
单词频率:单词在某个文档中出现次数
文档频率:有多少文档包含含个单词
单词频率、文档频率和出现位置信息的倒排索引