bm25算法Java代码_BM25算法在Lucene中的应用

weixin_39925413

于 2021-03-02 11:59:46 发布

阅读量410

点赞数

文章标签： bm25算法Java代码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39925413/article/details/114961544

版权

本文介绍了Lucene中的BM25算法，它是用于评估搜索词与文档相关性的评分算法。内容涵盖了BM25的公式、IDF、文档长度因子以及在Lucene中的具体实现。通过示例查询解释了评分计算过程，帮助理解Lucene的评分机制。

摘要由CSDN通过智能技术生成

Lucene是apache软件基金会jakarta项目组的一个子项目，是一个用Java写的全文检索引擎工具包，可以方便的集成到系统中提以提供高效的检索能力，Lucene核心功能分为建索和检索两部分。而对于检索部分来说，检索词和结果的相关度则为整个系统的核心部分，Lucene在相关度得分上提供了多种算法，现在大多数文章都会提到其中的TF/IDF算法，本文主要说一下其中的BM25算法在Lucene中的应用

BM25是二元独立模型(BIM)的扩展，是一种用来评价搜索词和文档之间相关性的算法，在Lucene中被应用在对查询结果的评分计算中。也就是对于一个Query查询到的文档与Query的相关度的评分计算。

BM25模型:

b51a1b35d853

BM25算法模型

其中Q为Query，d标识搜索结果的文档，qi表示Query中的一个语素(分词)，Wi表示qi的权重，R(qi，d)表示语素qi与文档d的相关性得分。

这里的Wi的处理方式在Lucene中使用的是IDF算法，计算如下

b51a1b35d853

IDF

N为文档的总数，n(qi)为包含qi的文档数，显而易见，当n(qi)越高时得分越低，语素的常见度越大则权重越低，因此在建索和查询时去除停止词也很有必要。

R(qi，d)：

最低0.47元/天解锁文章

weixin_39925413

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
bm25算法Java代码_BM25算法在Lucene中的应用

Lucene是apache软件基金会jakarta项目组的一个子项目，是一个用Java写的全文检索引擎工具包，可以方便的集成到系统中提以提供高效的检索能力，Lucene核心功能分为建索和检索两部分。而对于检索部分来说，检索词和结果的相关度则为整个系统的核心部分，Lucene在相关度得分上提供了多种算法，现在大多数文章都会提到其中的TF/IDF算法，本文主要说一下其中的BM25算法在Lucene中的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。