《introduction to information retrieval》信息检索学习笔记1 布尔检索

本文介绍了信息检索的基本概念,以布尔检索模型为例,讲解了如何处理布尔查询,包括建立倒排索引、处理简单的连接查询和更复杂的布尔表达式。布尔检索模型虽然精确,但可能导致精度和召回率的权衡。
摘要由CSDN通过智能技术生成

第1章 布尔检索

  • 信息检索的定义:信息检索(IR)是从大型集合(通常存储在计算机上)中寻找满足信息需求的非结构化性质(通常是文本)的材料(通常是文档)。

1.1一个信息检索的例子

问题描述:确定莎士比亚的作品集中,哪些戏剧包含了词汇Brutus和Caesar而不包含Calpumia。

1.解决办法

(1)最简单的文档检索形式:计算机通过文档进行线性扫描(Unix/Linux中文本扫描grep)
缺点:线性扫描的时间复杂度与文档集大小成正比,不适合大规模文本检索
无法满足以下需求:
1.快速处理大型文档集合
2.更灵活的匹配操作
3.检索结果排序
(2)提前建立索引文档:避免对每个查询进行线性扫描,以词项(term)为横坐标,文档(document)为纵坐标,根据文档中是否出现该词汇建立二进制词汇-文本关联矩阵。
在这里插入图片描述
图1.1 词汇-文档关联矩阵,当d列包含t行单词时M(t,d)为1,否则为0

针对本问题,取词汇Brutus和Caesar及Calpumia的行向量做运算(Brutus AND Caesar AND NOT Calpumia),得出问题答案: Antony and Cleopatra和Hamlet.

110100 and 110111 and 101111 = 100100

2.相关概念

  • 布尔检索模型(Boolean retrieval model):信息检索的一个模型,布尔检索模型可以提出以布尔表达式的形式表示(结合逻辑运算符and,or,not)的任何查询。该模型将每个文档看作是一组单词。
  • 正确率(Precision)<
  • 4
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值