概率检索模型之BIM和BM25F模型与TF-IDF模型

最新推荐文章于 2024-08-01 15:45:15 发布

taolusi

最新推荐文章于 2024-08-01 15:45:15 发布

阅读量1.9k

点赞数 2

分类专栏： NLP 文章标签： BM25 BM25F TF-IDF BIM

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/taolusi/article/details/82020084

版权

NLP 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

1. 概率排序原理

以往的向量空间模型是将query和文档使用向量表示然后计算其内容相似性来进行相关性估计的，而概率检索模型是一种直接对用户需求进行相关性的建模方法，一个query进来，将所有的文档分为两类 – 相关文档、不相关文档，这样就转为了一个相关性的分类问题。

对某个文档 $D$ 来说， $P(R|D)$ 表示该文档属于相关文档的概率，则 $P(NR|D)>(NR|D)$ ，则认为这个文档是与用户查询相关的。

现在使用贝叶斯公式将其转一下：

P (R | D) > P (N R | D) < = > P ( D | R ) P ( R ) P ( D ) > P ( D | N R ) P ( N R ) P ( D ) < = > P ( D | R ) P ( D | N R ) > P ( N R ) P ( R )

$P(R|D)>P(NR|D) <=> \frac{P(D|R)P(R)}{P(D)}>\frac{P(D|NR)P(NR)}{P(D)} <=> \frac{P(D|R)}{P(D|NR)}>\frac{P(NR)}{P(R)}{}$
在搜索过程中不需要真正的分类，只需要保证相关性由高到低排序即可，所以只需要

P(D|R)P(D|NR) P ( D | R ) P ( D | N R ) $\frac{P(D|R)}{P(D|NR)}$ 降序即可。
这样就最终转换为计算

P(D|R) P ( D | R ) $P(D|R)$ 和

P(D|NR) P ( D | N R ) $P(D|NR)$ 的值即可。

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。