BM25算法

BM25算法 - 简书

BM25算法, Best Matching - 知乎

BM25是目前信息索引领域最主流的计算query与文档相似度得分的算法。BM 是Best Match最佳匹配的缩写,25指的是第25次算法迭代。

BM25的一般公式:

Score\left ( Q,d \right )=\sum_{i}^{n}W_{i}R(q_{i},d)

其中Q 表示query, q_{i} 表示query中的分词,d表示文档。W_{i}表示切词权重,R代表切词和文档的相关性。

具体来说,它是一种基于概率检索模型提出的算法,BM25的计算主要有几个部分组成:

  1. query中每个分词的重要性
  2. query中每个分词和文档之间的相关性
  3. query中每个单词与query的相关性(只有当query很长时才会使用)

分别对BM25的组成部分进行解读:

1、W_{i} 表示分词权重

这里就是IDF:IDF\left ( q_{i} \right )=log\frac{N-df_{i}+0.5}{df_{i}+0.5}

其中,N表示索引中全部文档数量,df_{i} 表示了包含了切词q_{i}的文档个数。依据IDF的作用,对于q_{i}

来说,包含q_{i} 的文档数越多,说明q_{i} 的重要性越小,或者区分度越低;可以使用IDF来刻画q_{i} 与文档的相似性。 

2、分词和文档的相关性

  3、分词与query的相关性

 4、BM25的最终公式

 

 

       

  • 4
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
BM25算法是一种用于文本检索和文档排序的算法。在Python中,可以使用gensim库中的bm25模块来实现BM25算法。下面是一个示例代码,用于展示如何使用BM25算法进行文本分类: ```python from gensim.summarization import bm25 import jieba def gensim_bm25_word_classification(test_word): corpus = [ ['高', '血', '压', '高血', '血压'], ['糖', '尿', '病'], ['精', '神', '病'] ] corpus_dic = { '高血压': ['高', '血', '压', '高血', '血压'], '糖尿病': ['糖', '尿', '病'], '精神病': ['精', '神', '病'] } bm25Model = bm25.BM25(corpus) # 构建BM25模型 test_word = list(test_word) # 将测试文本转为列表 scores = bm25Model.get_scores(test_word) # 计算相关性分数 print('测试短文本:', test_word) for i, j in zip(scores, corpus): for m in corpus_dic.keys(): if j == corpus_dic[m]: word_name = m print('分值:{},原词:{}'.format(i, word_name)) test_word = '高血压的症状是什么' # 设置测试文本 gensim_bm25_word_classification(test_word) ``` 以上代码演示了如何使用BM25算法对文本进行分类,根据测试文本的相关性分数来判断其属于哪个类别。在这个例子中,我们使用了一个简单的文本分类任务,将测试文本与预定义的文本集进行匹配,得到相关性分数并输出对应的类别名称。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Python bm25短文本分类,相似度识别,BM25算法相似度匹配,疾病相似度匹配gensim实现,bm25算法原理和实现...](https://blog.csdn.net/L_goodboy/article/details/124415418)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值