向量空间模型VSM

向量空间模型(VSM)用于表示文档和查询为关键词权重向量,通过tf-idf计算特征项权重。余弦相似度作为常见测量标准,评估查询与文档的匹配度。相关性反馈允许用户反馈以优化检索结果,提供更自然的查询体验,无需布尔表达式。
摘要由CSDN通过智能技术生成

检索效率。测量一个系统的查询响应结果的质量的常规方法是使用查准率(precision)和查全率(recall)。查准率是检索到的相关文档的数量与检索到的所有文档的数量的比值。查全率是检索到的相关文档的数量与所有相关文档的数量的比值。

 

理想情况下,查全率和查准率都应该是1,这意味着系统返回了所有的相关文档,并且结果中不包含不相关的文档。不幸的是,这实际上是不可能的。如果我们尝试提高查全率(比如通过给查询增加解析项),那么查准率将会受到影响;同样地,我们只能以查全率为代价来提高查准率。此外,检索效率和计算成本之间通常有一个折中。随着技术的向前发展,从关键词匹配到统计排名再到自然语言处理,计算成本成倍增加。

 

统计模型。在基于统计的向量空间模型中,一个文档被表示称一个由从文档中抽取的关键词及其权重组成的向量,权重表示了关键词在文档中和在整个文档集中的重要性;同样地,一个查询被表示成一个带有权重的关键词列表,权重表示关键词在查询中的重要性。

 

一个特征项在一个文档向量中的权重可以由多种方式来决定。一种常见的方法是使用所谓的tf × idf,该方法中一个特征项的权重取决于两个因素:特征项j在文档i中出现的频率tfij和它在整个文档集中出现的频率dfj。准确地说,特征项j在文档i中的权重为:

其中,N是文档集中文档的总数,idf 表示逆文档频率(inversedoc

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值