web搜索学习笔记之概率模型

1. 为什么概率模型?

直观上,一个IR系统不可能给出一个确定的答复:一个文档是否满足一个查询? 就算是人类,也不能给出这样确定的回答。因此,需要进行不确定性地判断。而概率理论正是进行不确定性推理的理论。

概率方法既是最古老的信息获取方法之一,也是当前最热门的信息获取方法之一。


2. 跟别的模型的比较

  • 2.1 布尔模型
布尔模型不支持对文档集合的排序。
  • 2.2 向量空间模型
向量空间模型基于文档与查询的相似度,进行排序。而相似度并不是相关度。最相似的文档可能高度相关,也可能完全无关(?)。而概率模型是对相关程度的更清晰的定义。


3. 需要使用的概率论基础


4. 基于概率的文档排序原理

4.1 基于概率的相关程度公式及其推导过程

公式(4)表示文档x与查询q相关的概率,其中x和q都是建立在term上的向量。

公式(5)表示文档x与查询q不相关的概率。

公式(6)组合公式(4)和公式(5),用来计算文档x与查询q的相关程度。

公式(7)是公式(6)中随文档x变化的部分,公式(6)中的其余部分,对于给定一个查询q来说,都是常量。

公式(8)基于公式(7),给出最终用来计算文档x与查询q相关程度的公式。


4.2 计算公式(8)


其中,


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值