lucence 文档评分公式

最新推荐文章于 2020-07-20 13:44:28 发布

yichudu

最新推荐文章于 2020-07-20 13:44:28 发布

阅读量967

点赞数

分类专栏：搜索引擎

天天开心

本文链接：https://blog.csdn.net/chuchus/article/details/51554556

版权

26 篇文章 0 订阅

订阅专栏

1.简介

分值计算方式为查询语句query中每个项term与文档doc的评分之和。公式表示见1-1。

s c o r e (q u e r y, d o c) = \sum t e r m \in q u e r y s c o r e (t e r m, d o c) (1-1)

$score(query,doc)=\sum _{term \in query} score(term,doc) \tag {1-1}$

s c o r e (t, d) = t f (t, d) * i d f (t) 2 * b o o s t (t, d) * l e n g t h N o r m (t, d) * c o o r d (q, d) * q u e r y N o r m (q) (2-1)

$score(t,d)=tf(t,d) * {idf(t)}^2 *boost(t,d)*lengthNorm(t,d)*coord(q,d)*queryNorm(q) \tag {2-1}$

符号	说明	备注
t	term	/
d	doc	/
q	term 所在query	/
tf(t,d)	term在doc中的频率	/
idf(t)	$\frac 1 {含有term的doc的频率}$	/
boost(t,d)	域和文档的加权	在索引期间设置。可以用该方法对某个域或文档进行静态单独加权
lengthNorm(t,d)	域的归一化值	域的归一化(normalization)值，更短的域获得更大的加权。该值在索引期间计算，并保存在索引norm中。
coord(q,d)	协调因子(Coordination factor)	基于doc与query的term的交集的数量。该因子会对包含更多搜索项的文档进行类似AND 的加权。
queryNorm(q)	查询的归一化值	每个term权重的平方和