经典检索模型——向量空间模型(VSM)的简单理解

本文介绍了向量空间模型(VSM),它是基于线性代数的一种信息检索模型,克服了布尔模型的局限,通过TF-IDF方法衡量文档和查询的相似度。TF-IDF包括词频(TF)和逆文档频率(IDF)两部分,用于评估词项在文档中的重要性和区分度。VSM模型假设词与词之间不相关,但无法处理语义和语境信息。
摘要由CSDN通过智能技术生成

笔者在课后作业中遇到了向量空间模型的概念题,对课堂重温后有了一些简单的理解,在此分享。

向量空间模型(VSM)

向量空间模型(Vector Space Model,VSM),是基于代数的一种常用模型。向量空间模型试图克服布尔模型的缺陷,它采用非布尔向量来表示文档和查询,采用非二值实数表示相似度,这样输出结果就可以按照文档和查询的相似程度来进行排序了,客观上实现了部分匹配。

采用向量空间模型最明显的效果就是能提供排序的结果集,这个结果集比通过布尔模型得到的结果集要合理得多,从某种意义上说,能更好地匹配用户的信息需求。

TF-IDF方法

在相似度量上常用TF-IDF权重方法:
TF 因子 (term frequency, 词频),文档dj中的词ki出现的频率。
在这里插入图片描述

IDF因子 (inverse document frequency ,逆向文件频率),文档集合中词ki出现的频率的倒数。
在这里插入图片描述

课后问题问及了TF的归一化与IDF取对数的目的,解答这个需要首先理解TF-IDF

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值