倒排索引是一种文件搜索的方式,它是搜索引擎实现的基础。它将文件内容中的词建立成索引,以此为依据搜索符合条件的文件。本文将根据高级数据结构课程课件简要介绍文件倒排索引的建立及其特点,然后重点进行pta中的题目分析。
介绍
文件倒排索引建立的过程主要是:
- 从文件中读取词
- 将该词提取为词干(word stemming),即去除第三人称形式、过去式、进行时等形式,留下词干),并去除分词(stop word),即”a”, “is”等没有意义的词。
- 检查该词是否已经在词典之中。
- 若不在,则将该词添加入词典之中。更新索引信息。
- 建立完毕后,将索引文件存入磁盘。
索引信息包括:词语, 词语出现总次数, (文件号;该文件中该词位置)
伪代码:
while ( read a document D ) {
while ( read a term T in D ) {
if ( Find( Dictionary, T ) == false )