lucence 文档评分公式

原创 2016年06月01日 11:18:01

1.简介

分值计算方式为查询语句query中每个项term与文档doc的评分之和。公式表示见1-1。

score(query,doc)=termqueryscore(term,doc)(1-1)

2.term与doc的评分

2.1 基于tf-idf

score(t,d)=tf(t,d)idf(t)2boost(t,d)lengthNorm(t,d)coord(q,d)queryNorm(q)(2-1)

符号 说明 备注
t term /
d doc /
q term 所在query /
tf(t,d) term在doc中的频率 /
idf(t) 1termdoc /
boost(t,d) 域和文档的加权 在索引期间设置。可以用该方法对某个域或文档进行静态单独加权
lengthNorm(t,d) 域的归一化值 域的归一化(normalization)值,更短的域获得更大的加权。该值在索引期间计算,并保存在索引norm中。
coord(q,d) 协调因子(Coordination factor) 基于doc与query的term的交集的数量。该因子会对包含更多搜索项的文档进行类似AND 的加权。
queryNorm(q) 查询的归一化值 每个term权重的平方和

2.2 基于BM25

score(t,d)=idf(t)(k1+1)tf(t,d)k1((1b)+bdlavgdl)+tf(t,d)(2-2)

k1,b为调节因子,根据经验设置,一般取k1=2,b=0.75,dl为文档长度,avgdl为所有文档的平均长度。

相关文章推荐

apache lucence(不包含文档)

  • 2014年03月05日 19:14
  • 47.48MB
  • 下载

lucence文档

  • 2013年10月28日 14:52
  • 75KB
  • 下载

高性能搜索引擎sphinx源码解析之搜索过程和评分公式

sphinx搜索(select)逻辑 用输入的查询词在索引文件中挨个进行比较,找到满足关系的文档的过程,并读出文档,给每个文件打分,最后打分完成后进行排序,随后获取到排序后的文档列表的过程。 sp...

lucene评分公式详解

  • 2013年04月10日 13:05
  • 701KB
  • 下载

Lucene/solr的评分公式

1. lucene 评分公式 ( 评分公式中,对大多数因子的控制和实现都是通过Similarity抽象类的子类完成的。lucene默认使用DefaultSimilarity类。如果要详细了解的话可以直...

ElasticSearch源码解析(五):排序(评分公式)

转载自:http://blog.csdn.net/molong1208/article/details/50623948 一、目的 一个搜索引擎使用的时候必定需要排序这个模块,一般情况下在...

Lucene Similarity (Lucene 文档评分score机制详解

转自:http://hi.baidu.com/lewutian/blog/item/3a60a2faad97c912a8d3111a.html 文档的分值代表了该文档在特定查询词下对应的相关性高低,...

信息检索导论学习笔记(6)-文档评分,词项权重计算及向量空间模型

参数化索引及域索引 迄今为止,我们都将文档看成一系列词项的序列.实际上,大多数文档都具有额外的结构信息.数字文档通常会把与之相关的元数据(metadata)以机读的方式一起编码.所谓元数据,指的是和文...

信息检索导论——六、文档评分、词项权重计算及向量空间模型

参数化索引及域索引 迄今为止,我们都将文档看成一系列词项的序列.实际上,大多数文档都具有额外的结构信息.数字文档通常会把与之相关的元数据(metadata)以机读的方式一起编码.所谓元数据,指的...

通过设置SolrInputDocument 的boost来改变文档评分

solr通过关键字查询后的文档得分最后要乘以这个boost因子,boost默认为1.0f   我们可以通过更新文档的boost从而来影响文档的得分,从而影响结果的排序。 public class...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:lucence 文档评分公式
举报原因:
原因补充:

(最多只允许输入30个字)