初探IR [1] 向量空间模型 Vector Space Model

向量空间模型

这是信息检索中的最基本的方法之一。用在向量空间模型(Vector Space Model)中。向量空间模型在信息检索的应用中经常用到。

举个列子:

例如,现在有一组文档d1, d2, d3, 我们要在其中搜索 “Car Insurance”。对于CarInsurance这两个词,我们知道它们在文档上的权重,如下:

                            d1              d2              d3

Car                     0.13          0.8             0.99

Insurance         0.99          0.6             0.13

我们把这张表映射到一个二维的平面上,XInsuranceY轴为Car。将d1,d2,d3以从原点出发的向量的形式标注在平面上,就可以看到三个向量。

而查询向量q为(0.710.71(Normalized)。我们将q这个向量和其他三个向量做比较,同q夹角最小的那个文档向量就是我们要找的和“Car Insurance“相关性最大的文档。

 

向量相似度

我们使用文档同查询之间的余弦相似度或归一相关系数(Normalized Correlation Coefficient)来计算查询向量和文档向量之间的相似程度。

2 b continued...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值