Lemur的查询执行

最新推荐文章于 2024-08-06 19:23:10 发布

spche

最新推荐文章于 2024-08-06 19:23:10 发布

阅读量975

点赞数

分类专栏： lemur 文章标签：文档 xml network 语言框架 c

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/spche/article/details/5181895

版权

lemur 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

语言模型

语言模型假设每个XML文档都会产生一个不同的模型，这个假设可以充许对每个XML文档运用统计原理来评估它的模型以及为每个XML文档打分。我们把每个XML文档看成是一组单词的序列，每个XML文档的语言模型是一组单词集合的概率分布。在大部分的时候，XML文档的概率分布被认为是多维的，例如，多维柏努利概率分布。一种简单而有效的计算单词w出现在XML文档的概率的方法是P(w |D):

tf_w,D是单词w在XML文档中出现的次数，|D|是XML文档中单词的个数。

假设一个查询Q=q₁,q₂,…q_k，由一系列单词q₁,q₂,…q_k组成，则可以通过下面的公式，来计算查询Q与XML文档D之间的相似度：

分别计算每个XML文档和查询Q的相似度，然后根据结果排序。

但用这种方法计算有一个缺点，如果一个XML文档中，存在了查询Q中的大多数单词，但有一个单词不存在，这时计算出的P(Q|D)为0，显然这是不合理的，所以引入了平滑参数来防止这种情况发生，更改后的公式为：

cf_w为XML文档集合中单词w出现的频数，|C|为XML文档集合中单词的总数，λ为平滑参数，且0≤λ≤1。

2.3.2 Lemur的检索模型

Lemur的检索模型结合了语言模型和inference network框架，语言模型和inference network已经分别被研究和应用很长一段时间了，但把这两者结合起来是Lemur的新颖之处。这样可以结合两主面的优点，并扩大两者的应用范围。

下图是一个检索模型的例子，整幅图就是一个inference network，图中的结点表示随机变量，当假设这些随机变量是独立的时候，就可以在结点之间表边表示这种独立性。

inference network主要由以下几部分组成：

Document node (D)

Smoothing parameter nodes (alpha, beta)

Model nodes (M)

Representation concept nodes (r)

Belief nodes (q)

Information need node (I)

Document node 是一个代表文档的随机变量，文档可以表示成多种实式，但在本模型中，文档一般表示成多维二元向量。

Smoothing parameter nodes 在本模型中对应平滑参数，每个Model node都有对应的Smoothing parameter nodes。

Model nodes 也可以称为feature language models，它负责平滑由文档表示的多维柏努利分布，在一个network也许有多个Model node。

Representation concept nodes 是二元变量，对应Document node中的每个二元向量。

Belief nodes 可把network中的不同的belief 通过不同的方法结合起来，Belief node可把别的Representation concept node或Belief node的belief结合起来。

Information need node 可把Belief nodes通过运算形成最终要返回的结果。

Indri中belief的计算采用的是Dirichlet方法：

其中µ为常数因子，tf_r,D表示结点 r在文档D中的频数，|D|表示文档D的长度，P(r | C)表示结点 r在文档集C中的概率。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Lemur的查询执行

语言模型语言模型假设每个XML文档都会产生一个不同的模型，这个假设可以充许对每个XML文档运用统计原理来评估它的模型以及为每个XML文档打分。我们把每个XML文档看成是一组单词的序列，每个XML文档的语言模型是一组单词集合的概率分布。在大部分的时候，XML文档的概率分布被认为是多维的，例如，多维柏努利概率分布。一种简单而有效的计算单词w出现在XML文档的概率的方法是P(w |D):
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。