检索模型及评价指标小结

经典检索模型

信息检索模型从它诞生到现在经历了几个不同阶段,分别是基于集合论、基于线性代数、基于统计和概率阶段。虽然专家检索不同于传统的信息检索,但两者还是有很大关联,并且本文也将基于对专家描述文档的检索作为Baseline,作为后续优化的基础。因此了解传统检索模型是很有必要的,本文下面将对不同阶段的经典模型进行摘要性介绍。

2.1.1.1  布尔模型

布尔模型是一个简单但却优雅的模型,它基于集合论和布尔代数理论。它在过去备受关注并被广泛应用到了很多早期商业搜索引擎中,近些年它逐渐被矢量空间模型和概率模型所取代,但仍然在信息检索领域占有一席之地,作为很好的Baseline来使用。

布尔模型基于如下的假设:1.一篇文档可以由词的集合表示。2.查询可以表示为关键词用AND,OR,NOT逻辑运算符连接的布尔表达式。3.如果文档中的索引词满足查询的布尔表达式,那么该文档就是相关的。

例如用户查询为“苹果 AND (乔布斯 OR ipad4)”,如果一篇文章包含“苹果”,并且同时包含“乔布斯”或者“ipad4”其中一个,那么这篇文章就是相关的,就是满足用户需求的。

布尔模型很容易理解,也很容易实现,并且有布尔代数为其提供理论支持。

但布尔模型有一个致命不足,它是严格二元相关的(0或1),即相关或者完全不相关,不能反映相关的不同程度,并且它返回的结果是无序的,过于粗糙。例如

Q=World^Cup^South^Africa^2010,Index(d)={World,Cup,South,Africa},

d将被认为不相关。再如,

Q=World||Cup||South||Africa||2010,Index(d1)={World,Cup,South,Africa,2010};

Index(d2)={2010},此时d1和d2将被认为同等相关,尽管d1明显更相关一些。此外要求普通用户有能力自己构造恰当布尔表达式查询可能也不切实际。

2.1.1.2  矢量空间模型(VSM)

信息检索领域奠基人Salton于70年代提出了VSM模型,相对于布尔模型的严格二元相关,它提出了部分匹配的检索策略。VSM模型作为一种文档表示和相似度计算模型,不仅在检索领域,在文本挖掘、自然语言处理等领域也被广泛采用。

VSM将查询和文档都表示为词的集合,并映射到一个高维空间,其中每一维代表文档集合中的一个词,通过计算查询词集所代表的空间向量和文档词集所代表的空间向量的相似度作为文档和查询的相关度。

VSM将词映射到高维空间时转化为权重,比较常用的映射函数是TF*IDF,它同时考虑了词在该文档和文档集合中的出现情况。一个基础的TF*IDF公式如下:

ω=tfi(d)*log(N/dfi)                   (2-1)

 

(2-2)

其中N为文档集合中文档的数目,tfi(d)称为词频,为词i在文档d中出现的次数,dfi文档频率,为文档集中含有词i的文档数。根据TF*IDF公式,文档中某一词出现的频率越高,权值越大,说明该词表示文档的属性越强;但当文档集合中包含该词的文档越多,其权值越小,说明该词区分性较小,表示文档的属性越弱。

VSM模型中,特征权值的计算框架为TF*IDF,但具体TF,IDF计算公式却有多种变形:

一种TF变体公式为:Wtf = 1+ log(TF),该公式是为了抑制词频过大带来的副作用。即一个单词在一篇文档中出现了10次,在另一篇文档中出现了1词,按照公式(2-1)TF会相差10倍,但实际上我们不需要这么大的差异,选取log进行缓冲,其中公式中的1是为了词频为1时的平滑。

另一种TF变体公式为: ,该公式是为了对长文档的抑制。TF表示单词在文档中的实际词频,Max(TF)代表该文档中次数最多的那个单词的词频。α是调节因子,新的研究表明α取0.4效果比

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值