Bobo源码笔记5（结果的筛选和收集）

最新推荐文章于 2020-12-28 15:24:36 发布

eric509

最新推荐文章于 2020-12-28 15:24:36 发布

阅读量161

点赞数

分类专栏： bobo

本文链接：https://blog.csdn.net/eric509/article/details/84283636

版权

bobo 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

当BoboSubBrowser的browse（）函数创建好filter和collector以后，那么就进入最后的阶段了，从索引中获取倒排表，进行过滤和收集，这一过程在类BoboSearcher2的search()函数中实现：

public void search(Weight weight, Filter filter, Collector collector, int start) throws IOException
  {
    final FacetValidator validator = createFacetValidator();
    int target = 0;

    //没有过滤条件，那么
    if (filter == null)
    {
      for (int i = 0; i < _subReaders.length; i++) { // search each subreader
        int docStart = start + _docStarts[i];
      //初始化最终结果收集器，collector用于收集搜索结果中满足过滤条件的文档
      collector.setNextReader(_subReaders[i], docStart);
      //初始化validtor，它用于收集各个Facet的各个属性的计数
      validator.setNextReader(_subReaders[i], docStart);
    
      //得到该IndexReader的scorer
      Scorer scorer = weight.scorer(_subReaders[i], true, true);
      if (scorer != null) {
        collector.setScorer(scorer);
        target = scorer.nextDoc();
        while(target!=DocIdSetIterator.NO_MORE_DOCS)
        {
          if(validator.validate(target))
          {
            collector.collect(target);
            target = scorer.nextDoc();
          }
          else
          {
            target = validator._nextTarget;
            target = scorer.advance(target);
          }
        }
      }
      }
      return;
    }

    for (int i = 0; i < _subReaders.length; i++) {
      //得到过滤后的文档列表 filterDocIdSet，与得到的搜索结果倒排表进行两路归并
      DocIdSet filterDocIdSet = filter.getDocIdSet(_subReaders[i]);
      if (filterDocIdSet == null) return;
      int docStart = start + _docStarts[i];
      //初始化最终结果收集器，collector用于收集搜索结果中满足过滤条件的文档      
      collector.setNextReader(_subReaders[i], docStart); 
      //初始化validtor，它用于收集各个Facet的各个属性的计数
      validator.setNextReader(_subReaders[i], docStart);
      Scorer scorer = weight.scorer(_subReaders[i], true, false);
      if (scorer!=null){
        collector.setScorer(scorer);
        //得到过滤条件文档列表
        DocIdSetIterator filterDocIdIterator = filterDocIdSet.iterator(); // CHECKME: use ConjunctionScorer here?

        int doc = -1;
        //从过滤列表中得到第一个文档号target       
        target = filterDocIdIterator.nextDoc();
        while(target < DocIdSetIterator.NO_MORE_DOCS)
        {
          if(doc < target)
          {
              //从搜索结果列表中取得下一个文档号，而且起点是从target开始找，即大于等于target的doc
              doc = scorer.advance(target);
          }

          if(doc == target) // permitted by filter
          {
            if(validator.validate(doc))
            {
              collector.collect(doc);

              target = filterDocIdIterator.nextDoc();
            }
            else
            {
              // skip to the next possible docid
              target = filterDocIdIterator.advance(validator._nextTarget);
            }
          }
          else // doc > target
          {
            if(doc == DocIdSetIterator.NO_MORE_DOCS) break;
             //在过滤列表中搜寻大于等于doc的target
             target = filterDocIdIterator.advance(doc);
          }
        }
      }
    }

这个search（）的主要工作就是将满足query条件的搜索结果进行过滤，过滤条件是filter决定的。这个过滤的过程其实是一个两路归并算法，一个是搜索结果列表，另一个是过滤列表。最后在两个列表中重叠的文档被collector收集起来，并进行排序。

搜索结果与过滤条件的重合docId的文档，即上面代码中满足条件：

 if(doc == target) // permitted by filter

这样的doc再经过FacetValidator处理，也就是计数

 if(validator.validate(doc))//这里的validate()函数，实际上就是计数的过程
            {
             //返回结果收集器对该doc进行收集
              collector.collect(doc);
              target = filterDocIdIterator.nextDoc();
  }

通常FacetSpec默认设置ExpandSelection为false ，那么CreateFacetValidator （）返回的是 new NoNeedFavalidator (FacetHitCollector[])，其validate()函数如下：

   @Override
    public final boolean validate(int docid) throws IOException {
       //每个Facet的分组计数器对该doc进行计数，也就是_count[docid]++
       for (FacetCountCollector collector : _countCollectors){
        collector.collect(docid);
      }
      return true;
    }