Solr Lucene Group查询

Solr Group查询


背景

搜索引擎在某种意义上也是一直数据库,写过sql的应该都知道group这个关键字,在有些场景下我们也需要搜索提供类似group的功能,例如作为基于信息流的电商我们需要按照不同的时间段返回结果,举个例子,就是先展示最近3天的商品,然后再展示3-7天的商品,那么group在solr里,或者说在lucene里是怎么实现的呢?

group思路

先介绍下大体思路,当然这个思路也是参考过solr源代码以及模拟过后总结出来的,网上也有现成的在lucene中怎么模拟group检索。

  1. 通过传入的参数,我们遍历所有符合q和fq的倒排,使用collector在collect过程中统计出所有有效的group,并且在此过程中同构sort来进行group的筛选,例如共有10个分组,我们通过在collect过程中通过分数筛选出分数最高的5个组,把这5个组的信息记录下来
  2. 第二次检索,这次检索主要是为了把文档分别归属到不同的group中,想都不用想你肯定会问第二次如果还是用检索的话就太蠢了,在第一次collect的过程中可以把所有满足条件的doc使用Cache来记录在内存中,这样第二次“检索”的时候,直接遍历cache中的所有doc,根据doc的信息判定它是不是属于当前要返回的top N个group,如果属于,就用TopFieldCollector来把这个doc 收集(collect)起来,反之不处理。续前面的例子,我们需要返回的是top 5的group,那么在遍历cache中的doc时,如果这个doc不属于top 5的分组,就直接无视该doc即可,反之,需要根据sort的相关信息把这个doc collect起来。

所以说,整个group的过程,是基于Collector的。

group lucene实现

  1. 第一阶段检索,完成group的统计,并且设置maxCacheRAMMB用于cache结果,如果cache比较小就可能放不下全部的doc,需要进行第二次的检索

    QueryParser qp =new QueryParser(Version.LUCENE_42, "brand_name", new IKAnalyzer());
    Query query = qp.parse(queryStr);
    //MyQuery niuniuQuery = new MyQuery(query);
    int topNGroups = 1; // 每页需要多少个组
    int groupOffset = 0; // 起始的组
    boolean fillFields = true;
    Sort docSort = Sort.RELEVANCE; // groupSort用于对组进行排序,docSort用于对组内记录进行排序,多数情况下两者是相同的,但也可不同
    Sort groupSort = docSort;
    int docOffset = 0;   // 用于组内分页,起始的记录
    int docsPerGroup = 2;// 每组返回多少条结果
    boolean requiredTotalGroupCount = true; // 是否需要计算总的组的数量
    
    TermFirstPassGroupingCollector c1 = new TermFirstPassGroupingCollector("standard_name", groupSort, topNGroups);
    boolean cacheScores = true;
    double maxCacheRAMMB = 32.0;
    
    CachingCollector cachedCollector = CachingCollector.create(c1, cacheScores, maxCacheRAMMB);
    searcher.search(query, cachedCollector);
    
    Collection<SearchGroup<BytesRef>> topGroups = c1.getTopGroups(groupOffset, fillFields);
    //没有找到任何分组
    if (topGroups == null){
        // No groups matched
        return;
    }
  2. 第二阶段检索,把doc id和score(需要的话)填充到各个需要返回的group中,

    Collector secondPassCollector = null;
    boolean getScores = true;
    boolean getMaxScores = true;
    TermSecondPassGroupingCollector c2 = new TermSecondPassGroupingCollector("standard_name", topGroups, groupSort, docSort, docsPerGroup, getScores, getMaxScores, fillFields);
    TermAllGroupsCollector allGroupsCollector = null;
    //是不是要返回group的总数
    if (requiredTotalGroupCount){
        allGroupsCollector = new TermAllGroupsCollector("standard_name");
        secondPassCollector = MultiCollector.wrap(c2, allGroupsCollector);
    }else{
        secondPassCollector = c2;
    }
    
    if (cachedCollector.isCached()){
        // 被缓存的话,就用缓存
        cachedCollector.replay(secondPassCollector);
    }else{
        // 超出缓存大小,重新执行一次查询
        searcher.search(query, secondPassCollector);
    }
    

    这里可以看到用了MultiCollector把TermSecondPassGroupingCollector和TermAllGroupsCollector来wrap在一起,在执行MultiCollector的collect方法时,遍历各个子Collector执行collect即可。这个TermAllGroupsCollector就是为了获取group的总数,下面的code是TermAllGroupsCollector的collect方法,意思就是通过doc的序号拿到该doc所属的group的key,去ordSet里找是不是存在该key,如果不存在,说明找到了一个新的组(如果要group的field值包含null,那也是一个新的group哟)

    public void collect(int doc) throws IOException {
    int key = index.getOrd(doc);
    if (!ordSet.exists(key)) {
        ordSet.put(key);
        BytesRef term;
        if (key == -1) {
            term = null;
        } else {
          term =  new BytesRef();
          index.lookupOrd(key, term);
        }
        groups.add(term);
    }
  3. 获取结果 拿到scoreDocs就意味着我们能够拿到所有的东西啦

    // group 总数
    if (requiredTotalGroupCount){
        totalGroupCount = allGroupsCollector.getGroupCount();
    }
    
    TopGroups<BytesRef> groupsResult = c2.getTopGroups(docOffset);
    int groupIdx = 0;
    for (GroupDocs<BytesRef> groupDocs : groupsResult.groups){
        groupIdx++;
        System.out.println("group[" + groupIdx + "]:" + groupDocs.groupValue.utf8ToString()); // 组的标识
        System.out.println("group[" + groupIdx + "]:" + groupDocs.totalHits);  // 组内的记录数
        int docIdx = 0;
        // 迭代组内的记录
        for (ScoreDoc scoreDoc : groupDocs.scoreDocs){
            docIdx++;
            System.out.println("group[" + groupIdx + "][" + docIdx + "]:" + scoreDoc.score);
            Document doc = searcher.doc(scoreDoc.doc);
            System.out.println("group[" + groupIdx + "][" + docIdx + "]:" + doc.get("base_car_style"));
        }
    }
    

补充

  1. collect方法是干什么?
    在遍历满足fq和q条件的倒排表时,需要使用scorer对这些doc进行收集,即如果当前文档数已经达到要求返回的总数,那么新来的competitive doc就要拿自己的score(一般是similarity打分得到的score,当然如果你用了CustomScoreProvider那就是其他逻辑打分)和当前堆顶的doc的分数作比较,如果比堆顶的分数大就替换,并且调整堆。什么意思呢,就是Collector可以通过collect方法收集满足条件的结果并且返回,一个基本的搜索流程就结束了

  2. TermFirstPassGroupingCollector和TermSecondPassGroupingCollector是怎么分别获取top M的group和group中top N的doc的?
    类似于TopDoc就是最小堆啦,例如TermSecondPassGroupingCollector中有一个TopDocsCollector的实例,具体可以自己研究一下~

参考

Lucene分类统计示例

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值