第一章——布尔检索
1.2 构建倒序索引
- 建立索引的主要步骤如下:
a. 收集需要建立索引的文档。
b. 将每篇文档转换成一系列词条 10 (token)的列表,这个过程通常称为词条化(tokenization)。
c. 进行语言学预处理,产生归一化的词条来做为词项。
d. 对所有文档按照其出现的词项来建立倒排索引,索引中包括一部词典和一个全体倒排记录表。
(ps:建立索引最核心的步骤是将这个词条列表按照词项的字母顺序进行排序。)
文档频率:出现该词项的文档数目。
通过排序和合并建立倒排索引的过程:(下图)
词典和倒排记录表都有存储开销。前者往往放在内存中,而后者由于规模大得多,通常放在磁盘上。
对于内存中的一个倒排记录表,可以采用两种好的存储方法,一个是单链表,另一个是变长数组。