Lucene源码分析 - MinShouldMatchSumScorer

最新推荐文章于 2024-01-24 16:14:09 发布

zoov

最新推荐文章于 2024-01-24 16:14:09 发布

阅读量491

点赞数

分类专栏： lucene源码分析文章标签： lucene源码分析

本文链接：https://blog.csdn.net/wang_hnust/article/details/88653450

版权

本文深入分析Lucene 6.3.0中的MinShouldMatchSumScorer，探讨tail作为小顶堆的实现、nextDoc和advance的基本逻辑及详细代码，讨论其在满足最小匹配次数条件下的迭代器管理策略。

摘要由CSDN通过智能技术生成

本文的代码以lucene-core 6.3.0为准，包含MinShouldMatchSumScorer的iterator函数和执行原理。转载请注明出处。

0 基本信息

对于每个迭代器而言，cost()代表这个迭代器的迭代路径长度，对于倒排表的迭代器，cost()返回的是倒排表的长度。
lead变量是链表，存的迭代器的当前位置的docId都相等。
tail变量是堆结构，按照迭代器的cost构建的小顶堆。
head变量是优先队列，按照迭代器当前位置的docId从小到大排序。
freq表示lead链表中迭代器的数量。

1 源码分析

1.1 tail 是小顶堆

tail是个小顶堆，删除元素只在堆顶进行，添加元素只在堆的末尾进行，删除元素的函数popTail:

  private DisiWrapper popTail() {
   
    final DisiWrapper result = tail[0];	 // 被删除的堆顶元素
    tail[0] = tail[--tailSize];		// 从堆尾取出一个元素放到堆顶，这个时候堆是不平衡的
    downHeapCost(tail, tailSize);	// 从堆顶往下调整堆
    return result;
  }

从堆顶往下调整，将cost最小的迭代器不断往上推，downHeapCost函数如下:

  private static void downHeapCost(DisiWrapper[] heap, int size) {
   
    int i = 0;
    final DisiWrapper node = heap[0];	// 记录整个堆的 root节点
    int j = leftNode(i);
    if (j < size) {
   		// 判断当前的 root节点是否是叶子节点
      int k = rightNode(j);
      if (k < size && heap[k].cost < heap[j].cost) {
   
        // 如果当前节点有左右子节点，那么选出子节点中cost最小的那个，记录到 j
        j = k;
      }
      // 判断当前 root节点是否比左右子节点中cost最小的那个还要小
      // 如果是，则将最小的那个节点推到 root节点
      if (heap[j].cost < node.cost) {
   	
        do {
   
          // 将cost较小的节点推到 root节点
          heap[i] = heap[j];
          // 将 root节点设置为较cost小的节点
          i = j;
          j =

最低0.47元/天解锁文章

zoov

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
Lucene源码分析 - MinShouldMatchSumScorer

本文的代码以lucene-core 6.3.0为准，包含MinShouldMatchSumScorer的iterator函数和执行原理。转载请注明出处。0 基本信息MinShouldMatchSumScorer类会遍历出所有scorers的迭代器中的docId，保证docId在所有迭代器中出现的次数至少是minShouldMatch次。lead变量是链表，存的是位置停留在docId的迭...
复制链接

扫一扫

专栏目录