检索结果聚类、排名

原创 2013年12月03日 19:56:51

1. 问题定义

        例如我们在Google scholar上搜索databasehistogram的结果如图1-1所示。注意到搜索结果又22万条,而Google只提供了按相关性排序和按日期排序两种方式。若两条检索结果除了包含查询关键字外还包含至少一个其它关键字,则将他们聚为一类。依据包含相同关键字的属性值得分对聚集类进行排序,而他们的得分是根据为他们属性值之和。属性之包括被引用次数、作者的PageRank得分、出版社的档次等。

        例如,有k1,k2,k3三个关键字,查询关键字为k1。易得所有包含关键字k2的结果总得分、所有包含k3的结果总得分以及所有既包含k2有包含k3的结果总得分。按照他们的总得分进行排序。

 

图1-1 database histogram搜索结果

     进一步分析,不难得出求出所有结果的总得分显得有失公平性,因此作者从包含其它相应关键字的结果中抽取得分最高的N项代替所有结果求得总得分,从而达到排序的目的。

2. 作者的方法

       自己的猜测:显然我们可以根据倒排表迅速完成对搜索结果的聚类,但需要注意的是如果出了查询关键字外还有n个关键字,则将有2n中组合方案,如果一一枚举将是NPC问题。因此作者将搜索结果分别按各个属性降序排列,每个属性值轮流取值以方便得到上下界。最终求得包含哪个或者哪几个关键字的搜索结果属性之得分高,则将他们排在前边,直到我们求出k个,计算结束。

        详细过程见论文:Adding Structure to Top-K: From Items to Expansions。

3.个人理解

        语义方面:虽然能计算出包含哪些非关键字的结果总得分较高,但将所有包含该关键字的所有搜索结果排在前边显然是不合理的。例如,有k1,k2,k3三个关键字,k1为查询关键字,我们计算top-1。假设包含k2的结果得分高于k3的,且包含k2的所有结果共有m项。显然很容易得出包含关键字k3的搜索结果中存在比包含关键字k2的搜索结果的得分高的项,因此将所有包含关键字k2的排在包含关键字k3的前边有失公平性。

       求解方面:作者将搜索结果的各项属性值分开排序,而根据以前听的关于反向top-k的文章(finding k mostfavorite products based on reverse top-t queries)中提到,可以将每项搜索结果的各个属性值当成一项,按照每项中属性值最大的那项进行排序,找出主导项,从而可以求出top-k。可行性有待进一步分析。

版权声明:本文为博主原创文章,未经博主允许不得转载。

一步一步跟我学习lucene(12)---lucene搜索之分组处理group查询

grouping介绍 我们在做lucene搜索的时候,可能会用到对某个条件的数据进行统计,比如统计有多少个省份,在sql查询中我们可以用distinct来完成类似的功能,也可以用group by来对查...
  • wuyinggui10000
  • wuyinggui10000
  • 2015年05月24日 00:57
  • 4049

基于 Sift + Kmeans + 倒排索引 的图像匹配

一:整体思路
  • x519125613
  • x519125613
  • 2014年05月28日 20:59
  • 2245

实时搜索引擎Elasticsearch(4)——Aggregations (聚合)API的使用

本篇将介绍ES提供的聚合API的使用。ES提供的聚合功能可以用来进行简单的数据分析。本文仍然以上一篇提供的数据为例来讲解。...
  • xialei199023
  • xialei199023
  • 2015年09月08日 21:57
  • 24009

检索结果聚类展望

摘要 检索结果聚类,可以有效地反映出特定Query下,检索结果内容的分布,可以清晰地描述出结果中的各个类别,对Query结果的展示方式亦不再是传统1页若干条结果的流式输送,而是采用展现核心词或代...
  • oanqoanq
  • oanqoanq
  • 2012年09月07日 14:50
  • 1158

搜索引擎聚类结果

  • 2014年02月24日 14:07
  • 262KB
  • 下载

聚类结果记录

  • 2014年03月11日 10:51
  • 891B
  • 下载

对聚类结果的图像拼接显示

  • 2014年03月18日 14:22
  • 2KB
  • 下载

2012百度之星第二场题目,A:度度熊就是要刷排名第一,B:网页聚类,C:度度熊的礼物,D:小王子的表演

A:度度熊就是要刷排名第一 时间限制:1000ms内存限制:65536kB 描述 一天度度熊在Baidu游戏大厅中发现了一个隐藏的神奇游戏,叫做”度度熊的逆袭”。度度熊很好奇到底是什么情况,...
  • hsttmht
  • hsttmht
  • 2012年06月03日 11:01
  • 4830

Python获取sklearn库中iris数据写入本地csv文件,可视化展示数据并进行分类、聚类实验以及结果可视化

今天有点时间就找来了iris数据实验了一下,就是可视化绘图感觉很好玩,就拿这个数据集做了一个实验,下面是简单的实验流程 1.获取iris数据写入本地csv文件,实现如下: def write_...
  • Together_CZ
  • Together_CZ
  • 2017年12月02日 19:39
  • 232

聚类结果的评估指标及其JAVA实现

一. 前言 又GET了一项技能。在做聚类算法的时候,由于要评估所提出的聚类算法的好坏,于是需要与一些已知的算法对比,或者用一些人工标注的标签来比较,于是用到了聚类结果的评估指标。我了解了以下几项。 ...
  • lilianforever
  • lilianforever
  • 2015年07月15日 10:42
  • 2270
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:检索结果聚类、排名
举报原因:
原因补充:

(最多只允许输入30个字)