搜索引擎性能评价——Cranfield评价体系

效率层面的考察主要包括用户需求是否得到很快的响应,为满足用户需求耗费了多大规模的硬件资源等。虽然这方面的研究内容对于搜索引擎的构建至关重要,但是对于搜索引擎用户而言,这方面的内容在搜索引擎技术当今的发展阶段并非关注的核心内容……重点……在对搜索引擎系统检索效果的评价上。

英国Cranfield工程在20世纪50年代末到60年代中期所建立的基于查询样例集、正确答案集和语料库的评测方案,则真正使信息检索成为一门实证性质的学科,也由此确立了“评价”在信息检索研究中的核心地位。其评价方法一般被称为Cranfield方法框架。

Cranfield方法一直到今天也被广泛地应用于包括搜索引擎在内的大多数信息检索系统评价工作中。有美国国防部高级研究计划署(DARPA)与美国国家标准和技术局共同举办的TREC(Text Retrieval Conference)就是一直基于此方法组织的信息检索评测和技术交流论坛。TREC是目前最大规模的文本信息检索评测平台。

Cranfiled方法指出,信息检索系统的“评价”应由如下3个环节组成:

首先,确定查询样例集合,抽取最能表示用户信息需求的一部分查询样例构建一个规模恰当的集合;  ()

其次,针对查询样例集合,在检索系统需要检索的语料库中寻找对应的答案,即进行正确答案集合的标注;

最后,将查询样例集合和预料库输入检索系统,系统反馈检索结果,再利用评价指标对检索系统结果和正确答案的接近程度进行评价,给出最终的用数值表示的评价结果。

通过对Cranfield体系施行过程的描述,可以看出,使用Cranfield体系对信息检索系统进行性能评价需要以下4个必要的因素。

语料库集合;

查询样例集合;

正确答案集合;

评价指标。


1. 对于搜索引擎系统而言,语料库集合就是指万维网数据的全体,搜索引擎需要利用网页抓取子系统自行获取万维网数据。

2.查询样例集合构建:(真实性,代表性,信息需求表达的完整性)

 ……虽然搜索引擎每日需要处理的用户查询数目十分庞大,但是进一步观察查询频率的分布时,将会发现,搜索引擎查询频度的分布在很大程度上符合“二八定律”(Pareto principle),这带来的启示是:可以使用少量的高频查询样例集合来代表大多数用户的查询请求。

……由时任IBM公司高级研发人员的Broder于2003年提出的信息需求分类体系:

导航类:用户检索时具有确定的检索目标页面,目的是查找某个已知存在的页面资源;

信息类:用户检索时没有确定的检索目标页面,目的是查找与某个主题相关的信息;

事务类:用户检索时没有确定的检索目标页面,目的是查找与某个特定需求相关的资源。

3. 正确答案集合构建

……针对大规模语料库集合中正确答案的标注问题,TREC总结出了一整套较为完善的解决方案和评价体系,其核心被称为pooling technology……对于搜索引擎性能评价任务而言,手工标注正确答案的环节是必不可少的,但手工标注的准确性不可避免地受到标注人员知识背景、理解水平等因素的影响,这一定程度上阻碍了搜索引擎性能评价所期望的客观、公正目标的达成。针对此,不少自动结果标注的方法出现,但都由于选择的标注方式不可靠而没有获得成功。

4. 搜索引擎评价指标

对于传统信息检索系统而言,最基本的评价指标是由Kent等人于1955年提出的”Precision / Recall“指标,如果我们定义如下两个文档集合:

Retrieved集合,待评测检索系统处理查询样例返回的结果集合。

Relevant集合,正确答案集合。

由此可见,Precition衡量的是检索系统所返回的结果列表中正确答案的比例,而Recall衡量的则是正确答案集合中有多大比例的答案在检索系统中返回的结果列表中。

……下面是一些搜索引擎性能评价中常用的评价指标。

1) 前n选精度(Precision at n,P@n)

搜索引擎返回的结果序列前n位结果中正确答案的比例。

2) 前n选成功率(Sucess at n,S@n)

搜索引擎结果序列的前n篇结果文档中能否有正确答案。

3) 首先正确答案排序倒数(Reciprocal Rank of First Correct Answer, RR )

4) 平均准确率(Average Precision, AP)

AP指标在很大程度上综合了Precision和Recall两方面的因素,可以用来衡量检索系统对各种信息需求类型查询的综合性能。RR和AP都是着重强调结果序列中最靠前文档相关程度的评价指标,对于只有一个正确答案的查询需求而言,RR=AP。

需要注意的是,以上提到的评价指标在施行过程中隐含了如下的假设:首先,结果池内所有文件都被手工标注过;其次,对文档进行手工标注的结果是一个二值化的判断,即该文档”是“正确答案或”不是“正确答案。

针对上述两个假设不满足的情况,分别有Chris Buckley(2004)等人设计的bpref评价指标和NDCG评价指标。


=================参考:搜索引擎技术基础,刘奕群等,清华大学出版社=================

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值