lucene实现的top k优先队列PriorityQueue简单原理

最新推荐文章于 2019-10-22 21:21:15 发布

源远流长

最新推荐文章于 2019-10-22 21:21:15 发布

阅读量3.3k

点赞数 1

分类专栏：搜索引擎算法文章标签： lucene null jdk up

本文链接：https://blog.csdn.net/duck_genuine/article/details/7596444

版权

搜索引擎同时被 2 个专栏收录

104 篇文章 0 订阅

订阅专栏

算法

19 篇文章 0 订阅

订阅专栏

Lucene里使用比较多的一种集合就是这个

PriorityQueue

比如取前10条相关结果。

jdk本身也有一个优先级队列，为什么lucene要实现自己的呢。。

后面看了jdk的 PriorityQueue ，它是使用最大堆来实现的，而且它的长度是什么可以变长的，就是如果我要一个top k的数据，但它会将所有数据都存起来，当然小数据无所谓，但如果达到几十万，几百万的时候，可想多浪费空间，而且每次调整更是要漫长多了。

lucene实现的PriorityQueue（以最小堆来实现top k）

它是一个不变长的优先级队列.当队列达到指定最大size的时候，并不会扩充，top k外的数据都会抛掉，这样不仅省空间，也因为轻便调整这个堆时可以更快。一般来说我要一个top k的数据，直觉想到的是使用最大堆，但这里它不是使用最大堆，而是使用最小堆来维护top k的数据。最后在输出的时候，先吐出来的时候倒一下序就可以了。

先看一下数据加入队列的时候的代码：

 public T insertWithOverflow(T element) {
    //堆未满的时候
    if (size < maxSize) {
      add(element);
      return null;
    }
    //新元素跟堆顶值比较，如果比堆顶值大，则进行调整
    else if (size > 0 && !lessThan(element, heap[1])) {
      T ret = heap[1];
      heap[1] = element;
      updateTop();
      return ret;
    } 
    //否则不需要调整原堆
    else {
      return element;
    }
  }

这样当堆满的时候，每次新来一个数据只需要跟堆顶比较就可以了，比堆顶小的数据都可以抛掉，比堆顶大的数就将堆顶抛掉，将新数据加到这个最小堆，然后再调整最小堆 .之后以此类推，最后这个堆里的数据就是我们要的top k的数据。。

当加入新元素时，此时堆未满，则从下往上调整

  private final void upHeap() {
    int i = size;
    T node = heap[i];			  // save bottom node
    int j = i >>> 1;
    while (j > 0 && lessThan(node, heap[j])) {
      heap[i] = heap[j];			  // shift parents down
      i = j;
      j = j >>> 1;
    }
    heap[i] = node;				  // install saved node
  }

当堆满的时候，从下往上调整，从(n/2)的位置开始，保持最小堆的定义，heap[1]保存最小堆的元素

 private final void downHeap() {
    int i = 1;
    T node = heap[i];			  // save top node
    int j = i << 1;				  // find smaller child
    int k = j + 1;
    if (k <= size && lessThan(heap[k], heap[j])) {
      j = k;
    }
    while (j <= size && lessThan(heap[j], node)) {
      heap[i] = heap[j];			  // shift up child
      i = j;
      j = i << 1;
      k = j + 1;
      if (k <= size && lessThan(heap[k], heap[j])) {
        j = k;
      }
    }
    heap[i] = node;				  // install saved node
  }

最后最小堆推出数据，每次吐出这个最小堆里最小的数据，

  public final T pop() {
    if (size > 0) {
      T result = heap[1];			  // save first value
      heap[1] = heap[size];			  // move last to first
      heap[size] = null;			  // permit GC of objects
      size--;
      downHeap();				  // adjust heap
      return result;
    } else
      return null;
  }

所以一般是用一个数组从后往前填写，这样就得到一个top k的列表

 for (int i = howMany - 1; i >= 0; i--) { 
      results[i] = pq.pop();
    }

源远流长

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
lucene实现的top k优先队列PriorityQueue简单原理

Lucene里使用比较多的一种集合就是这个PriorityQueue比如取前10条相关结果。jdk本身也有一个优先级队列，为什么lucene要实现自己的呢。。后面看了jdk的 PriorityQueue ，它是使用最大堆来实现的，而且它的长度是什么可以变长的，就是如果我要一个top k的数据，但它会将所有数据都存起来，当然小数据无所谓，但如果达到几十万，几百万的时候
复制链接

扫一扫