1、主要内容
①文档的基本组成单位及文档中确定这些单位所含字符序列的方法;
②词条化(把原始的字符流分成一个个的词条)和语言学预处理(建立词条的等价类);
③跳表倒排记录表数据结构(支持快速查询);
④适合于短语查询和邻近查询的索引结构(在布尔操作的检索系统和web搜索系统中非常普遍)。
2、字符序列的生成:
①、编码方式:Unicode、UTF-8等;
②、从纯文本文档中获取字符序列,如XML文档;
③、从二进制文档中获得字符序列,如doc或者zip或者pdf文档;
3、文档单位:[索引粒度:将书库中的每一本书作为索引单位还是每本书的每一章节?]
①、单个文件;
②、对于邮件系统的邮件目录,单个文件存放多个邮件;
③、如powerpoint文档以幻灯片的形式,并将每个页面存放到独立的文件中;
4、词项集合的确定:
①、词条话;
②、去听用词;
③、词项归一化(语言学预处理):1、相似度,比如antidiscriminatory和anti-discri minatory;2、维持多个非归一化词条之间的关联关系,比如car和automobile(可以保存一个同义词表,在查询时使用;也可以在索引建立的时候就使用同义词表,同义词所在的文档也会被索引);
④、词干还原和词形归并:[词干还原算法:Porter算法]。
5、基于跳表的倒排记录表快速合并算法(可了解跳表的一些性质)。
6、短语查询:
图2-11
例2-1: