文档查询匹配的方法:布尔模型,向量空间模型

文档查询匹配的方法:布尔模型,向量空间模型

文档表示:词袋方法Bag-of-Words Approach
• 在 IR 中表示文档(和查询)的传统方法:
记录出现的单词(术语; 通常,加上每个文档中的术语计数
• 忽略单词之间的关系,即秩序,接近等。
例如 rabbit eating = eating rabbit
这种被称为词袋的表示方法
参考文献 数学结构“bag”(又名“multiset”)— 像一个集合(即无序),但记录每个元素的计数

文档查询匹配的方法
• 布尔检索Boolean retrieval:
查询和文档之间的匹配二元决策:是文档是否与查询相关?
文档中存在搜索词是匹配的必要且充分的
• 排名检索Ranked retrieval:
查询和文档之间的匹配程度问题
考虑的文档术语的频率
并非所有搜索词都必须出现在文档中
化身Incarnations:
• 向量空间模型(SMART,Salton 等人,1971)
• 概率模型(OKAPI,Robertson/Sp¨arck Jones,1976)
• 网络搜索引擎

布尔模型
• 方法:构建复杂的搜索命令,通过结合基本搜索词(关键字,使用布尔运算符
• 注意:这不是方法被称为布尔值的原因
• 布尔运算符:
AND、OR、NOT、BUT、XOR(异或)
• 布尔查询提供了一个简单的逻辑基础来决定是否有任何应根据以下

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值