Lucene 评分机制

最新推荐文章于 2018-08-23 10:35:07 发布

allenson1

最新推荐文章于 2018-08-23 10:35:07 发布

阅读量108

点赞数

文章标签： Lucene scoring 评分

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/allenson1/article/details/84179791

版权

lucene为每个与Query匹配的文档都赋予了一个分数，用这个分数来表示文档与Query的相似度。lucene采用的公式和老师所说的最常用公式有点相似：

Σt in q (t f (t in d ) *idf (t)* boost(t.field in d )* lengthNorm(t.field in d )) *coord(q,d )* queryNorm(q)

其中，t表示term、d表示document、q表示query。这个公式的一些含义如下：

1. tf(t in d)：表示t的词频，即特征词t在文档d中出现的次数

2. idf(t): 反文献频率，这个应该大家都比较熟了。

3. boost(t.field in d)：这个在建立lucene索引的时候说过。对某个field的赋予的权重。

4. lengthNorm（t.field in d）:表示关键词t在文档d中所占的比重。在这里d中的关键词越少，代表t越重要。

5. coord(q,d): 代表q中有多少个特征词在文档d中出现

6. queryNorm(q): 代表q中每个特征词权值之和。

有些时候理解这些参数，以及为什么lucene要设置这样的评分机制，会有点困难，lucene比较人性化，提供了explain()方法使得用户可以更好的理解评分机制。

附件为explain()的使用方法。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lucene 评分机制

lucene为每个与Query匹配的文档都赋予了一个分数，用这个分数来表示文档与Query的相似度。lucene采用的公式和老师所说的最常用公式有点相似： Σt in q (t f (t in d ) *idf (t)* boost(t.field in d )* lengthNorm(t.field in d )) *coord(q,d )* quer...
复制链接

扫一扫

allenson1 CSDN认证博客专家 CSDN认证企业博客

码龄16年

20: 原创

43万+: 周排名

175万+: 总排名

4万+: 访问

: 等级

570: 积分

6: 粉丝

5: 获赞

1: 评论

9: 收藏

私信

关注

热门文章

分类专栏

Openstack 11篇
Linux 1篇
Python 1篇
network 4篇
java html css 1篇

最新评论

Openstack ceilometer简介—— 概念介绍
weixin_41268155: 您好，想请教一个问题，添加监控项 memory_util，在pipeline.yaml的sink里面添加如上面您所述的 - name: "arithmetic"，除此之外其他地方要修改没，pipeline.yaml的source里面要添加内容吗？我试了好久不行。谢谢了^_^

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。