lucene排序算法之向量空间模型（二）

最新推荐文章于 2024-05-29 16:35:48 发布

weixin_34205826

最新推荐文章于 2024-05-29 16:35:48 发布

阅读量207

点赞数

文章标签：数据结构与算法 python

原文链接：https://my.oschina.net/u/1268334/blog/3032870

版权

2019独角兽企业重金招聘Python工程师标准>>>

在 lucene排序算法之向量空间模型（一）中说明了采用余弦距离而不是欧式距离来度量查询向量与文档向量相似度的原因，本文主要推导lucene中文档相似度公式：

1、令查询向量，文档向量;

2、，

3、由于用户在输入查询串时，一般不会输入相同的查询词，因此简单设置;

;需要注意的是只有当词都存在于q和d中wn*Wn才不为0。

4、查询向量长度，可能大家会认为由于评分时需要比较的是查询向量与文档向量的相似度，查询向量的长度对于所有文档的相似度而言是相同的，因此实际中就可以舍去，但实际并没有舍去；

5、对于文档向量长度，lucene并没有采用标准的公式即：|d|=开根号（W1*W1+...+Wn*Wn），而是设置成默认的开根号（词的个数）

6、文档得分score=，实际上当|d|不是标准公式的时候，最终的得分也就不是两个向量的余弦了，因此该公式要换个角度去理解，score=，变成标准的单位查询向量q和非标准的文档向量d的乘积，也就是文档向量d在单位查询向量q的投影长度，这样说明lucene实际上并没有把余弦距离当作相似度量，单位查询向量实际上指明了查询的方向，哪个文档向量在查询向量上的投影长度越长说明就越相似。余弦距离实际是两个单位向量间的乘积，lucene的官方文档中也说明了这一点，我们也可以看成是其中一个单位向量在另一个单位向量上的投影长度，不知lucene官方是否这样定义得分公式的，但个人认为能够解释得通。

注意：这里不是lucene的最终公式，因为还没有考虑各项自定义的权重问题，以及文档向量|d|的实际取值问题，最终公式下一篇给出。

转载于:https://my.oschina.net/u/1268334/blog/3032870

weixin_34205826

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
lucene排序算法之向量空间模型（二）

2019独角兽企业重金招聘Python工程师标准>>> ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。