转 OKapi BM25 算法

最新推荐文章于 2024-06-04 17:33:37 发布

这个很普通

最新推荐文章于 2024-06-04 17:33:37 发布

阅读量269

点赞数 1

本文链接：https://blog.csdn.net/gfyufffb/article/details/84049073

版权

BM25算法是一种在信息检索系统中评估查询和文档匹配度的评分算法，源于OKapi系统。它基于概率检索框架，忽视句子结构，仅考虑词频。本文介绍了BM25的基本概念和公式，适合零基础学习者。

摘要由CSDN通过智能技术生成

分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow

也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！

BM25（Best Match25）是在信息检索系统中根据提出的query对document进行评分的算法。It is based on the probabilistic retrieval framework developed in the 1970s and 1980s by Stephen E. Robertson, Karen Spärck Jones, and others.BM25算法首先由OKapi系统实现，所以又称为OKapi BM25。

BM25属于bag-of-words模型，bag-of-words模型只考虑document中词频，不考虑句子结构或者语法关系之类，把document当做装words的袋子，具体袋子里面可以是杂乱无章的。It is not a single function, but actually a whole family of scoring functions, with slightly different components and parameters. One of the most prominent instantiations of the function is as follows.

　　对于一个query $Q$ , 包括关键字 $q_1, ..., q_n$ , 一个文档的BM25得分:

$\text{score}(D,Q) = \sum_{i=1}^{n} \text{IDF}(q_i) \cdot \frac{f(q_i, D) \cdot (k_1 + 1)}{f(q_i, D) + k_1 \cdot (1 - b + b \cdot \frac{|D|}{\text{avgdl}})},$

其中IDF是上篇文章《TD-IDF》中的IDF，f是《TD-IDF》中的TF，|D|是文档D的长度，avgdl是语料库全部文档的平均长度。k₁和b是参数。usually chosen, in absence of an advanced optimization, as $k_1 \in [1.2,2.0]$ and $b = 0.75$ 。

TF-IDF

词语频率( Term Frequency), 简称 “TF”, 是一个很简单的度量标准：一个特定的词语在文档出现的次数。你可以把这个值除以该文档中词语的总数，得到一个分数。例如文档中有 100 个词， ‘the’ 这个词出现了 8 次，那么 ‘the’ 的 TF 为 8 或 8/100 或 8%（取决于你想怎么表示它）。

逆向文件频率（Inverse Document Frequency）, 简称 “IDF”，要复杂一些：一个词越稀有，这个值越高。它由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。越是稀有的词&#x