Lucene工具箱之OpenBitSet

最新推荐文章于 2019-05-25 12:29:21 发布

diaoshi9891

最新推荐文章于 2019-05-25 12:29:21 发布

阅读量153

点赞数

原文链接：http://www.cnblogs.com/zzti08/p/4958811.html

版权

本文深入解析了Lucene中OpenBitSet的工作原理及应用，详细阐述了其如何利用二进制位存储数据，以及如何高效地进行集合运算，如求并集和交集。同时，文章还提供了具体的代码示例，展示了OpenBitSet在处理大量密集数据时的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

　　转载地址：http://sbp810050504.blog.51cto.com/2799422/1567796

在Lucene中，DocId具有这样的特征：唯一/递增。而且在搜索的过程，不同term之间的DocId集合进行逻辑运算的需求非常之多。OpenBitSet正是集合运算的利器。

OpenBitSet的原理

假设有一个byte，一共有8个二进制位，如下图：

如果每个二进制位表示一个数，这个Byte可以存储[0,7]共8个数。

比如存储4，6这两个数，则byte中各个二进制位的状态如下：

用二进制位的下标表示存储的数，并在将二进制位的相应状态设为1。OpentBitSet正是利用上述原理来存储数据。

3.4.2 OpenBitSet的简单应用

假设有两个集合A = {1，3，4，10，5},B={5，3，2，8}。计算A集合与B集合的并集；计算A集合与B集合的交集。

 int[] a = {1,3,4,10,5};

       int [] b = {5,3,2,8};

       OpenBitSet setA = new OpenBitSet();

       for(int i : a) setA.set(i);

       OpenBitSet setB = new OpenBitSet();

       for(int i : b) setB.set(i);

      

       OpenBitSet unionSet = setA.clone();

       unionSet. union(setB); //取A与B的并集

       DocIdSetIterator iterator = unionSet.iterator();

       while(iterator.nextDoc()!=DocIdSetIterator.NO_MORE_DOCS){

           System.out.print(iterator.docID()+", ");

       }System.out.println();

      

       OpenBitSet intersectionSet = setA.clone();

       intersectionSet. intersect(setB);//取A与B的交集

       iterator = intersectionSet.iterator();

       while(iterator.nextDoc()!=DocIdSetIterator.NO_MORE_DOCS){

           System.out.print(iterator.docID()+", ");

       }System.out.println();

输出结果如下：

并集：1, 2, 3, 4, 5, 8, 10,

交集：3, 5,

3.4.3 OpenBitSet的源码分析

OpenBitSet利用二进制位来存储数据，一个long类型最高只有64位，能存储63个数。

如果存储[0,63]之间的数，需要1个long类型串联起来。

如果存储[0,127]之间的数，需要2个long类型串联起来。

如果存储[0,191]之间的数，需要3个long类型串联起来。

……

如果存储[0,(64N+m)] (N,m为非负整数，m<64)之间的数，需要N个long类型串联起来.

所以OpenBitSet的核心就是一个long类型的数组bits。

public class OpenBitSetextendsDocIdSet implements Bits, Cloneable {

protectedlong[]bits;

这个数组需要开多大呢？依据存储数据的最大值而定。OpenBitSet有构造函数如下：

  publicOpenBitSet() {

    this(64);

  }

这个构造函数调用了另一个需要传参的构造函数：

  /** Constructs an OpenBitSet large enough to hold <code>numBits</code>.

   */

  publicOpenBitSet(long numBits) {

    this.numBits = numBits;

    bits = new long[bits2words(numBits)];

    wlen= bits.length;

  }

该构造函数中调用了bits2words()方法来通过传入的参数计算bits数组的大小。

tits2words(64) = 1；表示存储[0,63]之间的数需要1个long类型。

tits2words(256)=2；表示需要存储[0,255]之间的数需要2个long类型。

依此类推……

这样传参避免我们人工计算bits数组的大小，也封装了实现原理。

OpenBitSet的数据存储

首先要清楚的是，在OpenBitSet中：

[0,63]存储在bits[0]的64个位中

[64,127]存储在bits[1]的64个位中

……

[64N,64N+63]存储在bits[N]的64个位中

任何一个非负整数，都可以表示成：64*N+m (N,m都是非负整数，m<64)。其中N表示bits数组的下标，m表示bits[N]的64个位中需要把状态置为1的二进制位的下标。

存储数据的原代码如下：

  /** sets a bit, expanding the set size if necessary */

  publicvoidset(longindex) {

    int wordNum = expandingWordNum(index);

    int bit = (int)index & 0x3f;

    long bitmask = 1L << bit;

    bits[wordNum] |= bitmask;

  }