总结一下信息检索效果评价方法

 

1.准确率和覆盖率

覆盖率。

准确率。

平均覆盖率。

平均准确率。

 

精度和召回率

wiki:http://en.wikipedia.org/wiki/Precision_and_recall

 

2.浏览距离

         这个概念最早在张德的博士论文《万维网信息聚类研究》中看到。其目的是为了评价信息检索系统的易用性。

         设有一个信息检索系统,在它对某个查询q返回的结果中,用户必须浏览k个文档后才能看到文档d,则称在此系统中文档d对查询q的浏览距离是browse_distance(d,q)=k,如果与查询q相关的文档集合(用户真正需要的信息)X(q),那么称在此系统中X(q)的浏览距离是browse_distance(X (q ),q) = min{browse_distance(d,q)}d属于X

例如,用户想寻找关于爪哇咖啡的信息。在搜索引擎中查询“Java”,得到的搜索结果大部分都是关于Java程序设计语言的,若第一个关于爪哇咖啡的文档在搜索结果列表中排在第101个,即用户必须浏览到第101个文档时才能找到白己真正需要的信息,则称该搜索

引擎对“爪哇咖啡”相关文档集合的浏览距离是101

对大量用户的查询进行统计可以得到系统的平均浏览距离(average browse distance)

设查询集合为Q,则系统的平均浏览距离

 

average_browse_distance = Σbrowse_distance(X(q), q)/|Q|

 

因为事后聚类能够将相关的文档放在同一个类中,用户就可以跳过不相关的类而直接浏览相关的类中的文档,所以在事后聚类一般能够缩短信息检索系统的平均浏览距离。

 

3. <Learning to Cluster Web Search Results>

         传统的聚类算法很难评估,但在该文中,评估相对简单,因为可以将其定义为评级问题。因此我们可以使用信息检索中经典的评估方法。

         其使用精确率(P)在前N个结果中,来衡量性能:

        

P@N = |CR|/|R|

        

         其中R是其算法返回的前N个显著关键词集合,C是手工标注的正确的显著关键词集合。在其大多数实验中,使用P@5P@10,以及P@20来评估。

 

4.覆盖率和重叠

上文还评测了其算法生成的簇的覆盖。从图中可以看到,平局而言,前10个显著短语的簇包含大约一半的搜索结果。这也许是其提出算法的不足,与传统的聚类算法相比。我可以进一步精炼之,通过设计更精密的簇合并算法。

上文展示了前N个簇的重合。平均,前5个簇的重叠大约是35%。意味着在100个文档中大约有65个不同的文档。前20个簇的重叠大约是60%,意味着在100个文档中大约只有40个不同的文档。

5. Question Utility: A Novel Static Ranking of Question Search

经验评估

         我们的经验评估包含两个实验。一个是评估提出的方法来估计问句有用性。另一个是评估问句有用性作为问句搜索的静态评级的使用。

 

 

 

实验构建

源数据

         我们使用从YahooAnswers得到的问句作为评估所用。更准确的说,我们利用在在YahooAnswers解决了关于travel的问句。这些问句包括310000项左右。每个解决的问句包含3个部分:‘title’表示问句的主要信息,‘description’表示问句增加的细节,以及‘answer’。在我们的实验中,问句参考‘title’部分的文本。我们参考数据集合作为‘SRC-DAT’。

 

问句有用性评估数据

         为了评估我们基于问句有用性的语言模型的性能,我们选择5个城市名称(Los AnglesParisBeijingSeoul,以及Tokyo)作为主题,并构建一个关于这些话题的背景真相,采用以下的步骤。

         首先,10个人被询问无依赖的问题,关于这5个话题。尤其,对每个话题,每个人被要求提供10个问句,是他最可能询问的,当其计划访问这个城市。结果,有100个问句被收集,考虑每个话题。我们把数据集归为SET-A。继而,一个辅佐人被要求手工选择问句,从‘SRC-DAT’,以形成背景真相(以‘SET-B’)表示,通过观察数据集‘SET-A’。一个问句被选择提供,这个问句可以被用于回答‘SET-A’的确定问题的参考。作为基本事实,我们使用‘SET-B’来评估我们的方法,为问句有用性,因为没有‘SET-A’中的问句可以在‘SRC-DAT’中找到。

         我们评估方法的思想很简单:如果一个系统可以更准确的预言问句的一般有用性,有更多的机会,这个问句评级较高,以这个系统,可以覆盖很多问句相关于有用的这个,通过不同个人。

         1提供了静态统计,在背景事实‘SET-B’上。‘#related’参考相关于相应城市的问句的数目,在‘SRC-DAT’中。‘#relevant’参考‘SET-B’中问句的数目。表2分别表明了来自‘SET-A’和‘SET-B’例子。

 

 

 

问句搜索评估数据

         为了评估问句有用性作为问句搜索的静态评级,我们随机选择100个问句从查询日志中,来自于商业搜索引擎的查询日志,继而构建一个在问句搜索上的事实。

         一个查询被选择,仅当它包含超过两个单词,且相关于‘travel’领域。100个查询的平均长度是3.5个单词(去除停用词之后是2.7个单词)。表3表明了几个查询的例子,在我们的实验中。‘Frequency’是在查询日志中香型的查询的出现的次数。

 

 

 

         对每个查询,我们使用语言模型方法【】来搜索相关的问题,从数据集‘SRC-DAT’。继而,两个辅助者被要求手工的决定前200个前关问句的相关性。为两个辅助者不同意的问句,一个附加的注解者被要求提供最终的注解。

 

评估策略

         我们指导两个实验作为评级任务。一个实验评估我们的方法,估定问句用用性,作为一个静态评级任务。一个实验评估问句有用性的使用为搜索,是一个动态(搜索)评级任务。因此,我们使用标准的IR评估策略比如MAPR-Precision,和P@N

 

其他配置

         在实验中,我们采用Porter,并移除停用词,在索引和实时搜索的阶段。作为训练语言模型,我们使用CMU-Cambridge统计语言模型工具。

 

结果

用语言模型估计问句有用性

         对我们的语言模型方法,我们尝试两个变种:(aunigram模型和trigram模型;(b)长度归一化或否。

         以我们的观察,长问句常常询问很个人化的或者不流行的东西,其不能认为有用。因此,我们考虑评级问句的方法(对每个话题)通过问句的反转长度,可以为有竞争的基本方法。

         在实验里,对每个话题(城市名),我们使用我们的方法和基准方法来评级所有的问句,从‘SRC-DAT’相关于此话题。继而,我们使用‘SET-B’来评估结果。

 

 

 

         从表4,我们看到我们的方法基于无论是unigram语言模型还是trigram语言模型,都比基本方法好很多。更进一步,trigram语言模型比unigram语言模型好很多。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值