lucene打分公式

lucene利用余弦相似度进行计算,并进行了改进

coord(q,d):文档d匹配q的词越多,此值越大,在查询的时候计算的,匹配的词/查询的总词数(可能不一样)

queryNorm(q):是一个归一化的因子,使得两个分数之间可以比较,默认计算公式如下:


tf(tin d):和词频相关,t出现在d中的词数,tf(t in q)是1,因为如果一个查询q包含两个相同的t,在公式中会计算两次,因此这也是对的,默认的计算公式如下:


idf(t):逆向文档频率,比较稀罕的词,此值越大,在q和d中此值是一样的,默认的公式如下:


t.getBoost():查询q中词(term)的加权,通过BoostQuery设置此值,在多词查询中,不能直接获取此值,多词查询时通过多个TermQuery合并查询的,所以可以通过BoostQuery获取

norm(t,d):该值组合了几个boost和长度因子:

field boost,在把字段加入到文档前,通过field.setBoost()设置

lengthNorm: lucene索引多个filed,每个字段域field都是独立索引,此值是此filed的内容的长度,同一个文档可以添加相同的filed(内容可以不一样),每个filed可以设置不同值,计算时相乘(匹配了多少个filed,相乘多少次)

一个文档的norm(t,d)的计算公式如下


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值