lucene排序算法之向量空间模型(二)

 lucene排序算法之向量空间模型(一)中说明了采用余弦距离而不是欧式距离来度量查询向量与文档向量相似度的原因,本文主要推导lucene中文档相似度公式:

1、令查询向量5bd1982f642911d7df042339d8264fd56b3.jpg,文档向量ec6654d627bbb5e1e1ed1df193ea19b608f.jpg;

2、56e662583f1fbd6bd1b82bb08d7078c6505.jpg54b611b91253fb7efdfb5965f55edd87305.jpg

3、由于用户在输入查询串时,一般不会输入相同的查询词,因此简单设置51031cbd331171c713f59185260716f0bee.jpg;  3bc061c26eb0a699316a2cc80e57a041ae6.jpg

    e70841746a81bc99c72c4e141e3b74e92f2.jpg;需要注意的是只有当词都存在于q和d中wn*Wn才不为0。

4、查询向量长度dd1a396da19c9f7b912ef006701e2ec72ab.jpg,可能大家会认为由于评分时需要比较的是查询向量与文档向量的相似度,查询向量的长度对于所有文档的相似度而言是相同的,因此实际中就可以舍去,但实际并没有舍去;

5、对于文档向量长度,lucene并没有采用标准的公式即:|d|=开根号(W1*W1+...+Wn*Wn),而是设置成默认的开根号(词的个数)

6、文档得分score=b7140d69761797f8a0fb6a8b11ab2ec5703.jpg,实际上当|d|不是标准公式的时候,最终的得分也就不是两个向量的余弦了,因此该公式要换个角度去理解,score=4414b9b971bd7a6dcd188098068eafab62f.jpg,变成标准的单位查询向量q和非标准的文档向量d的乘积,也就是文档向量d在单位查询向量q的投影长度,这样说明lucene实际上并没有把余弦距离当作相似度量,单位查询向量实际上指明了查询的方向,哪个文档向量在查询向量上的投影长度越长说明就越相似。余弦距离实际是两个单位向量间的乘积,lucene的官方文档中也说明了这一点,我们也可以看成是其中一个单位向量在另一个单位向量上的投影长度,不知lucene官方是否这样定义得分公式的,但个人认为能够解释得通

注意:这里不是lucene的最终公式,因为还没有考虑各项自定义的权重问题,以及文档向量|d|的实际取值问题,最终公式下一篇给出。

转载于:https://my.oschina.net/u/1268334/blog/3032870

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值