在 lucene排序算法之向量空间模型(一)中说明了采用余弦距离而不是欧式距离来度量查询向量与文档向量相似度的原因,本文主要推导lucene中文档相似度公式:
1、令查询向量,文档向量
;
2、,
3、由于用户在输入查询串时,一般不会输入相同的查询词,因此简单设置;
;需要注意的是只有当词都存在于q和d中wn*Wn才不为0。
4、查询向量长度,可能大家会认为由于评分时需要比较的是查询向量与文档向量的相似度,查询向量的长度对于所有文档的相似度而言是相同的,因此实际中就可以舍去,但实际并没有舍去;
5、对于文档向量长度,lucene并没有采用标准的公式即:|d|=开根号(W1*W1+...+Wn*Wn),而是设置成默认的开根号(词的个数)
6、文档得分score=,实际上当|d|不是标准公式的时候,最终的得分也就不是两个向量的余弦了,因此该公式要换个角度去理解,score=
,变成标准的单位查询向量q和非标准的文档向量d的乘积,也就是文档向量d在单位查询向量q的投影长度,这样说明lucene实际上并没有把余弦距离当作相似度量,单位查询向量实际上指明了查询的方向,哪个文档向量在查询向量上的投影长度越长说明就越相似。余弦距离实际是两个单位向量间的乘积,lucene的官方文档中也说明了这一点,我们也可以看成是其中一个单位向量在另一个单位向量上的投影长度,不知lucene官方是否这样定义得分公式的,但个人认为能够解释得通。
注意:这里不是lucene的最终公式,因为还没有考虑各项自定义的权重问题,以及文档向量|d|的实际取值问题,最终公式下一篇给出。