Solr Lucene Group查询

最新推荐文章于 2024-07-23 12:48:53 发布

Kehl

最新推荐文章于 2024-07-23 12:48:53 发布

阅读量880

点赞数

分类专栏： solr 文章标签： lucene solr group collector

本文链接：https://blog.csdn.net/Oliverkehl/article/details/51842176

版权

solr 专栏收录该内容

17 篇文章 1 订阅

订阅专栏

Solr Group查询

背景

搜索引擎在某种意义上也是一直数据库，写过sql的应该都知道group这个关键字，在有些场景下我们也需要搜索提供类似group的功能，例如作为基于信息流的电商我们需要按照不同的时间段返回结果，举个例子，就是先展示最近3天的商品，然后再展示3-7天的商品，那么group在solr里，或者说在lucene里是怎么实现的呢？

group思路

先介绍下大体思路，当然这个思路也是参考过solr源代码以及模拟过后总结出来的，网上也有现成的在lucene中怎么模拟group检索。

通过传入的参数，我们遍历所有符合q和fq的倒排，使用collector在collect过程中统计出所有有效的group，并且在此过程中同构sort来进行group的筛选，例如共有10个分组，我们通过在collect过程中通过分数筛选出分数最高的5个组，把这5个组的信息记录下来
第二次检索，这次检索主要是为了把文档分别归属到不同的group中，想都不用想你肯定会问第二次如果还是用检索的话就太蠢了，在第一次collect的过程中可以把所有满足条件的doc使用Cache来记录在内存中，这样第二次“检索”的时候，直接遍历cache中的所有doc，根据doc的信息判定它是不是属于当前要返回的top N个group，如果属于，就用TopFieldCollector来把这个doc 收集（collect）起来，反之不处理。续前面的例子，我们需要返回的是top 5的group，那么在遍历cache中的doc时，如果这个doc不属于top 5的分组，就直接无视该doc即可，反之，需要根据sort的相关信息把这个doc collect起来。

所以说，整个group的过程，是基于Collector的。

group lucene实现

第一阶段检索，完成group的统计，并且设置maxCacheRAMMB用于cache结果，如果cache比较小就可能放不下全部的doc，需要进行第二次的检索

QueryParser qp =new QueryParser(Version.LUCENE_42, "brand_name", new IKAnalyzer());
Query query = qp.parse(queryStr);
//MyQuery niuniuQuery = new MyQuery(query);
int topNGroups = 1; // 每页需要多少个组
int groupOffset = 0; // 起始的组
boolean fillFields = true;
Sort docSort = Sort.RELEVANCE; // groupSort用于对组进行排序，docSort用于对组内记录进行排序，多数情况下两者是相同的，但也可不同
Sort groupSort = docSort;
int docOffset = 0;   // 用于组内分页，起始的记录
int docsPerGroup = 2;// 每组返回多少条结果
boolean requiredTotalGroupCount = true; // 是否需要计算总的组的数量

TermFirstPassGroupingCollector c1 = new TermFirstPassGroupingCollector("standard_name", groupSort, topNGroups);
boolean cacheScores = true;
double maxCacheRAMMB = 32.0;

CachingCollector cachedCollector = CachingCollector.create(c1, cacheScores, maxCacheRAMMB);
searcher.search(query, cachedCollector);

Collection<SearchGroup<BytesRef>> topGroups = c1.getTopGroups(groupOffset, fillFields);
//没有找到任何分组
if (topGroups == null){
    // No groups matched
    return;
}

第二阶段检索，把doc id和score(需要的话)填充到各个需要返回的group中，

Collector secondPassCollector = null;
boolean getScores = true;
boolean getMaxScores = true;
TermSecondPassGroupingCollector c2 = new TermSecondPassGroupingCollector("standard_name", topGroups, groupSort, docSort, docsPerGroup, getScores, getMaxScores, fillFields);
TermAllGroupsCollector allGroupsCollector = null;
//是不是要返回group的总数
if (requiredTotalGroupCount){
    allGroupsCollector = new TermAllGroupsCollector("standard_name");
    secondPassCollector = MultiCollector.wrap(c2, allGroupsCollector);
}else{
    secondPassCollector = c2;
}

if (cachedCollector.isCached()){
    // 被缓存的话，就用缓存
    cachedCollector.replay(secondPassCollector);
}else{
    // 超出缓存大小，重新执行一次查询
    searcher.search(query, secondPassCollector);
}

这里可以看到用了MultiCollector把TermSecondPassGroupingCollector和TermAllGroupsCollector来wrap在一起，在执行MultiCollector的collect方法时，遍历各个子Collector执行collect即可。这个TermAllGroupsCollector就是为了获取group的总数，下面的code是TermAllGroupsCollector的collect方法，意思就是通过doc的序号拿到该doc所属的group的key，去ordSet里找是不是存在该key，如果不存在，说明找到了一个新的组(如果要group的field值包含null，那也是一个新的group哟)

public void collect(int doc) throws IOException {
int key = index.getOrd(doc);
if (!ordSet.exists(key)) {
    ordSet.put(key);
    BytesRef term;
    if (key == -1) {
        term = null;
    } else {
      term =  new BytesRef();
      index.lookupOrd(key, term);
    }
    groups.add(term);
}

获取结果拿到scoreDocs就意味着我们能够拿到所有的东西啦

// group 总数
if (requiredTotalGroupCount){
    totalGroupCount = allGroupsCollector.getGroupCount();
}

TopGroups<BytesRef> groupsResult = c2.getTopGroups(docOffset);
int groupIdx = 0;
for (GroupDocs<BytesRef> groupDocs : groupsResult.groups){
    groupIdx++;
    System.out.println("group[" + groupIdx + "]:" + groupDocs.groupValue.utf8ToString()); // 组的标识
    System.out.println("group[" + groupIdx + "]:" + groupDocs.totalHits);  // 组内的记录数
    int docIdx = 0;
    // 迭代组内的记录
    for (ScoreDoc scoreDoc : groupDocs.scoreDocs){
        docIdx++;
        System.out.println("group[" + groupIdx + "][" + docIdx + "]:" + scoreDoc.score);
        Document doc = searcher.doc(scoreDoc.doc);
        System.out.println("group[" + groupIdx + "][" + docIdx + "]:" + doc.get("base_car_style"));
    }
}

补充

collect方法是干什么？
在遍历满足fq和q条件的倒排表时，需要使用scorer对这些doc进行收集，即如果当前文档数已经达到要求返回的总数，那么新来的competitive doc就要拿自己的score(一般是similarity打分得到的score，当然如果你用了CustomScoreProvider那就是其他逻辑打分)和当前堆顶的doc的分数作比较，如果比堆顶的分数大就替换，并且调整堆。什么意思呢，就是Collector可以通过collect方法收集满足条件的结果并且返回，一个基本的搜索流程就结束了
TermFirstPassGroupingCollector和TermSecondPassGroupingCollector是怎么分别获取top M的group和group中top N的doc的？
类似于TopDoc就是最小堆啦，例如TermSecondPassGroupingCollector中有一个TopDocsCollector的实例，具体可以自己研究一下~