BM25算法

最新推荐文章于 2024-06-04 17:33:37 发布

diemeng1119

最新推荐文章于 2024-06-04 17:33:37 发布

阅读量987

点赞数

分类专栏：基础知识可信度论文相关

基础知识同时被 3 个专栏收录

19 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

1. BM25算法

BM25是二元独立模型的扩展，其得分函数有很多形式，最普通的形式如下：

∑

其中，k₁,k₂,K均为经验设置的参数，f_i是词项在文档中的频率，qf_i是词项在查询中的频率。

K₁通常为1.2，通常为0-1000

K的形式较为复杂

K=

上式中，dl表示文档的长度，avdl表示文档的平均长度，b通常取0.75

2. BM25具体实现

由于在典型的情况下，没有相关信息，即r和R都是0，而通常的查询中，不会有某个词项出现的次数大于1。因此打分的公式score变为

∑

3.0

BM25算法，通常用来作搜索相关性平分。一句话概况其主要思想：对Query进行语素解析，生成语素qi；然后，对于每个搜索结果D，计算每个语素qi与D的相关性得分，最后，将qi相对于D的相关性得分进行加权求和，从而得到Query与D的相关性得分。

BM25算法的一般性公式如下：

其中，Q表示Query，qi表示Q解析之后的一个语素（对中文而言，我们可以把对Query的分词作为语素分析，每个词看成语素qi。）；d表示一个搜索结果文档；Wi表示语素qi的权重；R(qi，d)表示语素qi与文档d的相关性得分。

下面我们来看如何定义Wi。判断一个词与一个文档的相关性的权重，方法有多种，较常用的是IDF。这里以IDF为例，公式如下：

其中，N为索引中的全部文档数，n(qi)为包含了qi的文档数。

根据IDF的定义可以看出，对于给定的文档集合，包含了qi的文档数越多，qi的权重则越低。也就是说，当很多文档都包含了qi时，qi的区分度就不高，因此使用qi来判断相关性时的重要度就较低。

我们再来看语素qi与文档d的相关性得分R（qi，d）。首先来看BM25中相关性得分的一般形式：

其中，k1，k2，b为调节因子，通常根据经验设置，一般k1=2，b=0.75；fi为qi在d中的出现频率，qfi为qi在Query中的出现频率。dl为文档d的长度，avgdl为所有文档的平均长度。由于绝大部分情况下，qi在Query中只会出现一次，即qfi=1，因此公式可以简化为：

从K的定义中可以看到，参数b的作用是调整文档长度对相关性影响的大小。b越大，文档长度的对相关性得分的影响越大，反之越小。而文档的相对长度越长，K值将越大，则相关性得分会越小。这可以理解为，当文档较长时，包含qi的机会越大，因此，同等fi的情况下，长文档与qi的相关性应该比短文档与qi的相关性弱。

综上，BM25算法的相关性得分公式可总结为：

从BM25的公式可以看到，通过使用不同的语素分析方法、语素权重判定方法，以及语素与文档的相关性判定方法，我们可以衍生出不同的搜索相关性得分计算方法，这就为我们设计算法提供了较大的灵活性。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
BM25算法

1. BM25算法BM25是二元独立模型的扩展，其得分函数有很多形式，最普通的形式如下： ∑ 其中，k1,k2,K均为经验设置的参数，fi是词项在文档中的频率，qfi是词项在查询中的频率。K1通常为1.2，通常为0-1000K的形式较为复杂 K= 上式中，dl表示文档的长度，avdl表示文档的平均长度，b
复制链接

扫一扫

专栏目录

diemeng1119 CSDN认证博客专家 CSDN认证企业博客

码龄15年

1: 原创

41万+: 周排名

126万+: 总排名

8万+: 访问

: 等级

643: 积分

15: 粉丝

11: 获赞

3: 评论

50: 收藏

私信

关注

热门文章

分类专栏

论文相关 1篇
基础知识 19篇
可信度 1篇
谣言
主题 1篇
C++ 1篇
web 1篇
推荐 2篇
其它 1篇

最新评论

cmd循环调用native2ascii.exe
CSDN-Ada助手: 非常感谢您分享关于cmd循环调用native2ascii.exe的经验，这篇博客对于需要处理中文编码的开发者来说一定非常有用。我觉得你可以继续写一篇关于Java编码转换的博客，介绍几种常见的编码方式以及如何进行编码转换，这样的技术文章对其他用户也一定非常有帮助。相信会有更多读者期待你的下一篇精彩博客！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
x2检验（chi-square test）或称卡方检验
大一也: 化疗和化疗加放疗那个例子，明显的放疗加化疗的有效率大于仅仅的化疗，为什么还要做卡方检验呢？
MAP(Mean Average Precision)
weixin_50805284: 请问rel()有具体的函数形式吗

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。