概率检索模型—BM25和BM25F实现文本相关度打分

本文介绍了概率检索模型中的BIM(二元独立模型)和其改进版BM25、BM25F。BIM基于二元假设和词汇独立性假设,BM25考虑了Query词的权值,而BM25F则对文档的不同区域赋予了权重。这些模型用于文本相关度打分和搜索结果排序。
摘要由CSDN通过智能技术生成


在网络中有各种各样的讯息,搜索引擎可以精准、快速、高效的帮我们获取自己想要的信息。其中 召回排序是搜索引擎中最重要的两部分。

Q:Query 输入的查询语句
q:查询语句的词
D:Document 文本库中的所有文本
d:文本库中的某一篇文本
G:Goods商品库中的所有商品
g:商品库中的某一商品

  1. 召回
    根据用户输入的Query语句进行分词,通过倒排索引的方式从已有的候选库中召回相关的网页或商品。

  2. 排序

  • 离线部分:通常会先根据业务要求如:网页的质量、浏览时长、销量、加购次数等因素对所有网页或商品进行打分获得基础分 base_score
  • 在线部分:使用VSM、BIM、BM25、BM25F等模型获取搜索词和已召回的网页或商品的相关度 Correlation,最后综合基础分和相关度进行排序并返回最相关的TopK

BIM模型(二元独立模型)

BM25是基于概率检索模型BIM的改进,或者说BIM(简化后的BIM)是BM25模型的一个项,而BM25F又是基于BM25模型的改进。所以在学习BM25模型之前我们先来了解一下BIM模型。

BIM模型介绍

BIM模型有两个假设:二元假设和词汇独立性假设

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值