概率检索模型

概率检索模型基于贝叶斯原理,用于信息检索领域的排序。不同于朴素贝叶斯分类,其目标是计算文档属于“相关”或“不相关”的概率比值。文章介绍了从基本思想、推导过程到无类别估值的解决方案,并详细阐述了 BM25 模型的引入,考虑了词频和文档长度因素,成为商业搜索系统中广泛应用的模型。
摘要由CSDN通过智能技术生成

概率检索模型是当前信息检索领域效果最好的模型之一,它基于对已有反馈结果的分析,根据贝叶斯原理为当前查询排序。

我在之前的博客 朴素贝叶斯分类 中介绍了如何用朴素贝叶斯算法对数据进行分类,其实概率检索模型的基本原理与朴素贝叶斯分类是一样的。先回忆一下朴素贝叶斯算法的原理:对于测试元组 X X ,最终目的是要计算对于不同的类 C i ,计算后验概率 p(Ci|X) p ( C i | X ) ,哪个类最大,就属于哪个类。而为了计算 p(Ci|X) p ( C i | X ) ,则需要用贝叶斯公式做如下分解:

p(Ci|X)=p(X|Ci)p(Ci)p(X)(10) (10) p ( C i | X ) = p ( X | C i ) p ( C i ) p ( X )

因为要比较大小,所以忽略 p(X) p ( X ) ,只需要考虑分子中的 p(X|Ci)p(Ci) p ( X | C i ) p ( C i ) ,其中 p(Ci) p ( C i ) 可以通过抽样得到,那么问题转化为计算 p(X|Ci) p ( X | C i ) p(X|Ci) p ( X | C i ) 代表 X X 在类 C i 中的概率。如果 X X n 个相互之间无关的属性组成,那么这个概率一般如下计算:

p(X|Ci)=j=1np(Xj|Ci)(11) (11) p ( X | C i ) = ∏ j = 1 n p ( X j | C i )

其中 Xj X j 为测试元组的第 j j 个属性值,如果属性是离散属性,那么 p ( X j | C i ) = | X j | | C i | ,其中 |Xj||Ci| | X j | | C i | 表示类 Ci C i 的数据元组中拥有属性 Xj X j 的概率。如果属性是连续属性呢,你自己看上面那篇博文,我这里不说了。之所以说离散时的情况,是因为本文后面要用。以上就是朴素贝叶斯分类法的原理,我大概复述一遍,方便理解后面要说的东西。

1. 基本思想

概率检索模型与贝叶斯分类的思想非常接近,但还是有本质区别的。概率检索模型的根本目的不是分类,它不需要根据查询判断一个文档属于“相关”或者“不相关”,而是计算这个文档属于属于“相关”或者“不相关”的概率大小为文档排序。我将概率检索模型要解决的问题刻画如下。

问题模型:现在对于一个查询 q q ,已知文档集中哪些与 q 是相关的(这类文档的类标号记为 C1 C 1 ),哪些与 q q 是不相关的(这类文档的类标号记为 C 0 )。概率检索模型的核心是对于每一个文档 X X 计算公式(1),公式(1)计算出的 α 代表了文档 X X 属于“相关”类的概率与属于“不相关”类的概率的比值(也叫“优势比”)。显然,这个比值越大,代表该文档与查询的相关度越大,因此我们就把 α 看做是相关度得分,最后通过 α α 将文档排序。

α=p(C1|X)p(C0|X)=p(X|C1)p(C1)p(X|C0)p(C0)(1) (1) α = p ( C 1 | X ) p ( C 0 | X ) = p ( X | C 1 ) p ( C 1 ) p ( X | C 0 ) p ( C 0 )

其中, p(C1|X) p ( C 1 | X ) p(C0|X) p ( C 0 | X ) 的计算过程如下:

p(C1|X)=p(X|C1)p(C
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值