Lucene聚类分组统计功能(grouping)

在搜索的项目中,我们经常有对搜索结果进行分组或对字段进行压缩的需求。 之前的文章提到这个功能已经添加到solr中并成为用户一个非常需要的特性。最近结果分组被作为一个扩展包加入到lucene3.1中,而在4.0中将直接作为一个模块。添加这个功能到lucene中使用起来将会更灵活。目前正在努力将结果分组放入到solr的3.X版本分支中。具体参考 SOLR-2524这意味着在solr3.2中我们将可以使用这个功能了!

历史
这个功能起于4年前,分支 SOLR-236被创建的时候。那时结果分组关注于在结果集中对拥有相同字段值的文档进行压缩。随着时间的推移,越来越多的人开始使用这个补丁。很多人提交了一些新的特性、调优。而字段的压缩在Jira上作为一个补丁起始于3年前,用户需要对solr打补丁并运行在这个构建的版本上。这种明显是一种错误的方式,以至于在这方面的问题发给了Solr的邮件组。另外,在Jira上有很多关于字段分组的补丁,这让用户很迷惑

去年9月结果分组在4.0-dev版中变的可用。字段压缩功能也被重写 (SOLR-1682),并且性能也得到提升。另外,结果分组也被加入,所以这个特性有些小的改变。

最近,正尝试着放入 LUCENE-1421。这个Jira创建的目的是暴露结果分组的功能给lucene。在Solr主干中,分组的代码将会被重写,并将分组模块放入到lucene中。在3.x版本中,它已经被作为一个扩展包了。目前还不能支持按方法(function)或查询(query)进行分组。 LUCENE-3099已经被创建,不久lucene就可以使用这些功能了。

Lucene的结果分组
Lucene中的分组很容易使用,参考下面的例子。类 FirstPassGroupingCollector用来收集每组中有多少个文档; SecondPassGroupingCollector收集有多少个分组。

FirstPassGroupingCollector c1 = new FirstPassGroupingCollector("author", groupSort, groupOffset + topNGroups);
indexSearcher.search(new TermQuery(new Term("content", searchTerm)), c1);
 
Collection<SearchGroup> topGroups = c1.getTopGroups(groupOffset, fillFields);
 
if (topGroups == null) {
   // No groups matched
  return;
}
 
boolean getScores = true;
boolean getMaxScores = true;
boolean fillFields = true;
SecondPassGroupingCollector c2 = new SecondPassGroupingCollector("author", topGroups, groupSort, docSort, docOffset + docsPerGroup, getScores, getMaxScores, fillFields);
    indexSearcher.search(new TermQuery(new Term("content", searchTerm)), c2);
 
TopGroups groupsResult = c2.getTopGroups(docOffset);


如果search的性能耗费大,则可以考虑使用 CachingCollector。这个cache可以缓存第一次search时的文档Id和评分,并提供给之后的查询使用。使用方法请参考 grouping documentation


有另一个收集器叫 AllGroupsCollector,它可以收集查询结果的所有组。下面的例子为得到各个分组收集的总数量:
// First pass search has been executed
boolean getScores = true;
boolean getMaxScores = true;
boolean fillFields = true;
AllGroupsCollector c3 = new AllGroupsCollector("author");
SecondPassGroupingCollector c2 = new SecondPassGroupingCollector("author", topGroups, groupSort, docSort, docOffset + docsPerGroup, getScores, getMaxScores, fillFields);
indexSearcher.search(new TermQuery(new Term("content", searchTerm)), MultiCollector.wrap(c2, c3));
 
TopGroups groupsResult = c2.getTopGroups(docOffset);
groupsResult = new TopGroups(groupsResult, c3.getGroupCount());


通过 MultiCollectorAllGroupsCollector能很好的封装 SecondPassGroupingCollectorAllGroupsCollector 也能独立的在其他的收集器中使用。

结果分组在solr中的使用
现在Solr主干上还没有使用lucene 分组模块;它使用它自己的分组模块。Solr还没有使用lucene的分组模块的原因,是它还没有对function和query的支持。然而Solr3.1还没有实现分组的支持,用户仍需要自己下分支然后编译。更坏的是,很多用户还在使用过时的补丁SOLR-236,这是我为什么创建 SOLR-2524的原因.

SOLR-2524 分支涉及到集成lucene的扩展包到solr3.x分支中。这个版本也为集成分组模块的主干版本到Solr4.0中作为参考。Solr3.x的主干分组将支持相同的响应格式和请求参数,具体描述请参见 Solr FieldCollapse wiki page;它还不支持的功能还是function和query。

如果运行良好,这个分支将会提交到Solr3.2版本中,Solr的用户就可以直接使用啦


  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
注:下文中的 *** 代表文件名中的组件名称。 # 包含: 中文-英文对照文档:【***-javadoc-API文档-中文(简体)-英语-对照版.zip】 jar包下载地址:【***.jar下载地址(官方地址+国内镜像地址).txt】 Maven依赖:【***.jar Maven依赖信息(可用于项目pom.xml).txt】 Gradle依赖:【***.jar Gradle依赖信息(可用于项目build.gradle).txt】 源代码下载地址:【***-sources.jar下载地址(官方地址+国内镜像地址).txt】 # 本文件关键字: 中文-英文对照文档,中英对照文档,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压 【***.jar中文文档.zip】,再解压其中的 【***-javadoc-API文档-中文(简体)版.zip】,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·本文档为双语同时展示,一行原文、一行译文,可逐行对照,避免了原文/译文来回切换的麻烦; ·有原文可参照,不再担心翻译偏差误导; ·边学技术、边学英语。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件;

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值