布尔检索:
布尔检索模型接受布尔表示查询,即通过AND、OR及NOT等逻辑操作符将词项连接起来进行查询,在该模型下,每篇文档只被看成是一系列词的集合。布尔搜索的一个普遍问题就是AND操作产生的结果正确率高但是召回率偏低,而采用OR操作符召回率高但是正确率低,因此很难或者说不可能找到一个令人满意的这种方案。
倒排索引:
倒排索引是信息检索内第一个核心概念。倒排索引中左侧为词项词典,右侧为全体倒排记录表,每个词项对应的表称为倒排记录表,每个倒排记录表中包含多个存在词项的文档编号,每个编号是一个倒排记录。
实现倒排索引遵循一定的步骤:
- 词条化,定义好文档单位之后将给定的字符序列拆分为一系列词条(token)。
- 去除停用词,停用词有被抛弃的趋势,Web搜索引擎通常都不用停用词。
- 词条归一化,将看起来不完全一致的多个词条(如大小写,重音变音符号,连接符)归纳成一个等价类,以便在它们之间进行匹配的过程,建立的过程是隐式的,可以对规则进行定义。
- 词干还原与词形归并,前者往往是粗略地去除单词两端词缀,后者是利用词汇表和词形分析去除屈折词缀从而返回词的原形。示例:saw,词干还原返回s,词形归并返回see或saw。两者对检索效率提高跟语言有关系,对英文提升不大。
经