信息检索导论读书笔记(二):布尔检索、倒排索引、倒排索引表合并算法、短语查询

布尔检索:

       布尔检索模型接受布尔表示查询,即通过AND、OR及NOT等逻辑操作符将词项连接起来进行查询,在该模型下,每篇文档只被看成是一系列词的集合。布尔搜索的一个普遍问题就是AND操作产生的结果正确率高但是召回率偏低,而采用OR操作符召回率高但是正确率低,因此很难或者说不可能找到一个令人满意的这种方案。

倒排索引:

       倒排索引是信息检索内第一个核心概念。倒排索引中左侧为词项词典,右侧为全体倒排记录表,每个词项对应的表称为倒排记录表,每个倒排记录表中包含多个存在词项的文档编号,每个编号是一个倒排记录。

     实现倒排索引遵循一定的步骤:

  1. 词条化,定义好文档单位之后将给定的字符序列拆分为一系列词条(token)。
  2. 去除停用词,停用词有被抛弃的趋势,Web搜索引擎通常都不用停用词。
  3. 词条归一化,将看起来不完全一致的多个词条(如大小写,重音变音符号,连接符)归纳成一个等价类,以便在它们之间进行匹配的过程,建立的过程是隐式的,可以对规则进行定义。
  4. 词干还原与词形归并,前者往往是粗略地去除单词两端词缀,后者是利用词汇表和词形分析去除屈折词缀从而返回词的原形。示例:saw,词干还原返回s,词形归并返回see或saw。两者对检索效率提高跟语言有关系,对英文提升不大。

  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值