Lemur的查询执行

语言模型

 

语言模型假设每个XML文档都会产生一个不同的模型,这个假设可以充许对每个XML文档运用统计原理来评估它的模型以及为每个XML文档打分。我们把每个XML文档看成是一组单词的序列,每个XML文档的语言模型是一组单词集合的概率分布。在大部分的时候,XML文档的概率分布被认为是多维的,例如,多维柏努利概率分布。一种简单而有效的计算单词w出现在XML文档的概率的方法是P(w |D):

 

 


tfw,D是单词w在XML文档中出现的次数,|D|是XML文档中单词的个数。

假设一个查询Q=q1,q2,…qk,由一系列单词q1,q2,…qk组成,则可以通过下面的公式,来计算查询Q与XML文档D之间的相似度:

 

 


分别计算每个XML文档和查询Q的相似度,然后根据结果排序。

但用这种方法计算有一个缺点,如果一个XML文档中,存在了查询Q中的大多数单词,但有一个单词不存在,这时计算出的P(Q|D)为0,显然这是不合理的,所以引入了平滑参数来防止这种情况发生,更改后的公式为:

 

 


cfw为XML文档集合中单词w出现的频数,|C|为XML文档集合中单词的总数,λ为平滑参数,且0≤λ≤1。

 

2.3.2 Lemur的检索模型

 

Lemur的检索模型结合了语言模型和inference network框架,语言模型和inference network已经分别被研究和应用很长一段时间了,但把这两者结合起来是Lemur的新颖之处。这样可以结合两主面的优点,并扩大两者的应用范围。

下图是一个检索模型的例子,整幅图就是一个inference network,图中的结点表示随机变量,当假设这些随机变量是独立的时候,就可以在结点之间表边表示这种独立性。

 

inference network主要由以下几部分组成:

Document node (D)

Smoothing parameter nodes (alpha, beta)

Model nodes (M)

Representation concept nodes (r)

Belief nodes (q)

Information need node (I)

Document node 是一个代表文档的随机变量,文档可以表示成多种实式,但在本模型中,文档一般表示成多维二元向量。

Smoothing parameter nodes 在本模型中对应平滑参数,每个Model node都有对应的Smoothing parameter nodes。

Model nodes 也可以称为feature language models,它负责平滑由文档表示的多维柏努利分布,在一个network也许有多个Model node。

Representation concept nodes 是二元变量,对应Document node中的每个二元向量。

Belief nodes 可把network中的不同的belief 通过不同的方法结合起来,Belief node可把别的Representation concept node或Belief node的belief结合起来。

Information need node 可把Belief nodes通过运算形成最终要返回的结果。

Indri中belief的计算采用的是Dirichlet方法:

 

 


其中µ为常数因子,tfr,D表示结点 r在文档D中的频数,|D|表示文档D的长度,P(r | C)表示结点 r在文档集C中的概率。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值