Solr Group查询
背景
搜索引擎在某种意义上也是一直数据库,写过sql的应该都知道group这个关键字,在有些场景下我们也需要搜索提供类似group的功能,例如作为基于信息流的电商我们需要按照不同的时间段返回结果,举个例子,就是先展示最近3天的商品,然后再展示3-7天的商品,那么group在solr里,或者说在lucene里是怎么实现的呢?
group思路
先介绍下大体思路,当然这个思路也是参考过solr源代码以及模拟过后总结出来的,网上也有现成的在lucene中怎么模拟group检索。
- 通过传入的参数,我们遍历所有符合q和fq的倒排,使用collector在collect过程中统计出所有有效的group,并且在此过程中同构sort来进行group的筛选,例如共有10个分组,我们通过在collect过程中通过分数筛选出分数最高的5个组,把这5个组的信息记录下来
- 第二次检索,这次检索主要是为了把文档分别归属到不同的group中,想都不用想你肯定会问第二次如果还是用检索的话就太蠢了,在第一次collect的过程中可以把所有满足条件的doc使用Cache来记录在内存中,这样第二次“检索”的时候,直接遍历cache中的所有doc,根据doc的信息判定它是不是属于当前要返回的top N个group,如果属于,就用TopFieldCollector来把这个doc 收集(collect)起来,反之不处理。续前面的例子,我们需要返回的是top 5的group,那么在遍历cache中的doc时,如果这个doc不属于top 5的分组,就直接无视该doc即可,反之,需要根据sort的相关信息把这个doc collect起来。
所以说,整个group的过程,是基于Collector的。
group lucene实现
第一阶段检索,完成group的统计,并且设置maxCacheRAMMB用于cache结果,如果cache比较小就可能放不下全部的doc,需要进行第二次的检索
QueryParser qp =new QueryParser(Version.LUCENE_42, "brand_name", new IKAnalyzer()); Query query = qp.parse(queryStr); //MyQuery niuniuQuery = new MyQuery(query); int topNGroups = 1; // 每页需要多少个组 int groupOffset = 0; // 起始的组 boolean fillFields = true; Sort docSort = Sort.RELEVANCE; // groupSort用于对组进行排序,docSort用于对组内记录进行排序,多数情况下两者是相同的,但也可不同 Sort groupSort = docSort; int docOffset = 0; // 用于组内分页,起始的记录 int docsPerGroup = 2;// 每组返回多少条结果 boolean requiredTotalGroupCount = true; // 是否需要计算总的组的数量 TermFirstPassGroupingCollector c1 = new TermFirstPassGroupingCollector("standard_name", groupSort, topNGroups); boolean cacheScores = true; double maxCacheRAMMB = 32.0; CachingCollector cachedCollector = CachingCollector.create(c1, cacheScores, maxCacheRAMMB); searcher.search(query, cachedCollector); Collection<SearchGroup<BytesRef>> topGroups = c1.getTopGroups(groupOffset, fillFields); //没有找到任何分组 if (topGroups == null){ // No groups matched return; }
第二阶段检索,把doc id和score(需要的话)填充到各个需要返回的group中,
Collector secondPassCollector = null; boolean getScores = true; boolean getMaxScores = true; TermSecondPassGroupingCollector c2 = new TermSecondPassGroupingCollector("standard_name", topGroups, groupSort, docSort, docsPerGroup, getScores, getMaxScores, fillFields); TermAllGroupsCollector allGroupsCollector = null; //是不是要返回group的总数 if (requiredTotalGroupCount){ allGroupsCollector = new TermAllGroupsCollector("standard_name"); secondPassCollector = MultiCollector.wrap(c2, allGroupsCollector); }else{ secondPassCollector = c2; } if (cachedCollector.isCached()){ // 被缓存的话,就用缓存 cachedCollector.replay(secondPassCollector); }else{ // 超出缓存大小,重新执行一次查询 searcher.search(query, secondPassCollector); }
这里可以看到用了MultiCollector把TermSecondPassGroupingCollector和TermAllGroupsCollector来wrap在一起,在执行MultiCollector的collect方法时,遍历各个子Collector执行collect即可。这个TermAllGroupsCollector就是为了获取group的总数,下面的code是TermAllGroupsCollector的collect方法,意思就是通过doc的序号拿到该doc所属的group的key,去ordSet里找是不是存在该key,如果不存在,说明找到了一个新的组(如果要group的field值包含null,那也是一个新的group哟)
public void collect(int doc) throws IOException { int key = index.getOrd(doc); if (!ordSet.exists(key)) { ordSet.put(key); BytesRef term; if (key == -1) { term = null; } else { term = new BytesRef(); index.lookupOrd(key, term); } groups.add(term); }
获取结果 拿到scoreDocs就意味着我们能够拿到所有的东西啦
// group 总数 if (requiredTotalGroupCount){ totalGroupCount = allGroupsCollector.getGroupCount(); } TopGroups<BytesRef> groupsResult = c2.getTopGroups(docOffset); int groupIdx = 0; for (GroupDocs<BytesRef> groupDocs : groupsResult.groups){ groupIdx++; System.out.println("group[" + groupIdx + "]:" + groupDocs.groupValue.utf8ToString()); // 组的标识 System.out.println("group[" + groupIdx + "]:" + groupDocs.totalHits); // 组内的记录数 int docIdx = 0; // 迭代组内的记录 for (ScoreDoc scoreDoc : groupDocs.scoreDocs){ docIdx++; System.out.println("group[" + groupIdx + "][" + docIdx + "]:" + scoreDoc.score); Document doc = searcher.doc(scoreDoc.doc); System.out.println("group[" + groupIdx + "][" + docIdx + "]:" + doc.get("base_car_style")); } }
补充
collect方法是干什么?
在遍历满足fq和q条件的倒排表时,需要使用scorer对这些doc进行收集,即如果当前文档数已经达到要求返回的总数,那么新来的competitive doc就要拿自己的score(一般是similarity打分得到的score,当然如果你用了CustomScoreProvider那就是其他逻辑打分)和当前堆顶的doc的分数作比较,如果比堆顶的分数大就替换,并且调整堆。什么意思呢,就是Collector可以通过collect方法收集满足条件的结果并且返回,一个基本的搜索流程就结束了TermFirstPassGroupingCollector和TermSecondPassGroupingCollector是怎么分别获取top M的group和group中top N的doc的?
类似于TopDoc就是最小堆啦,例如TermSecondPassGroupingCollector中有一个TopDocsCollector的实例,具体可以自己研究一下~