相关性算法--BM25

最新推荐文章于 2024-10-13 21:10:21 发布

Madala_

最新推荐文章于 2024-10-13 21:10:21 发布

阅读量1k

点赞数

分类专栏： Elasticsearch基础篇文章标签： BM25 相关性算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Madala_/article/details/96983704

版权

Elasticsearch基础篇专栏收录该内容

5 篇文章 0 订阅

订阅专栏

相关性算法--BM25

BM25是计算词对于文档相关性的算法，可以简单的拆解为3个部分

第一部分：IDF（逆向文档频率），之前我们说过TF/IDF算法的时候讲过 IDF，IDF就是指集合中的总文档数 / 包含搜索词的文档数，包含这个词的文档数越少，就越能体现这个词的代表性，相关度就越高。

第二部分：TF（词频），在TF/IDF中我们也谈到了，当一个词在文档中出现的次数越多，就代表这个词在文章中的重要程度，进而体现出这个词相对的相关度呈正相关。

第三部分：dl（文档长度），这个概念是之前所没有提及的，举例：

文档1：我爱你中国（dl：5）

文档2：我爱你我的中国（dl：7）

我们可以简单的理解为，文档1的长度为5，文档2的长度为7，‘中国’ 一词在文档1和文档2中同时出现，但是由于文档1的长度低于文档2，我们可以认为，文档1的相关性更高。就好比一篇文章叫 ‘中国’，另一片文章叫 ‘我的祖国是中国’。前者在搜索词为 ‘中国’ 的时候更具有代表性。

所以，BM25 = IDF * TF / TF + dl 这只是近似理解的方程式，应用到实际的生产环境中还有许多的系数需要调整，这篇文章简单的介绍了这个算法的大致原理，让大家心里对这个算法有个大致的理解

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。