JDK中的BitMap实现之BitSet源码分析

最新推荐文章于 2023-01-07 15:52:41 发布

Java爱好狂.

最新推荐文章于 2023-01-07 15:52:41 发布

阅读量221

点赞数

文章标签： BitSet源码 jdk源码 Java Java程序员程序人生

本文链接：https://blog.csdn.net/wdj_yyds/article/details/122325551

版权

本文主要分析了Java中的BitSet数据结构，探讨了BitMap在内存节省和数据处理方面的应用。通过源码分析，揭示了BitSet的扩容机制和逻辑索引的局限性，并提出了针对大范围逻辑索引的映射解决方案。同时，提到了RoaringBitmap作为优化选择，以应对BitSet在特定场景下内存浪费的问题。

摘要由CSDN通过智能技术生成

前提

本文主要内容是分析 JDK 中的 BitMap 实现之 java.util.BitSet 的源码实现，基于 JDK11 编写，其他版本的 JDK 不一定合适。

文中的图比特低位实际应该是在右边，但是为了提高阅读体验，笔者把低位改在左边了。

什么是BitMap

BitMap ，直译为位图，是一种数据结构，代表了有限域中的稠集（ Dense Set ），每一个元素至少出现一次，没有其他的数据和元素相关联。在索引，数据压缩等方面有广泛应用（来源于维基百科词条）。计算机中 1 byte = 8 bit ，一个比特（ bit ，称为比特或者位）可以表示 1 或者 0 两种值，通过一个比特去标记某个元素的值，而 KEY 或者 INDEX 就是该元素，构成一张映射关系图。因为采用了 Bit 作为底层存储数据的单位，所以可以 极大地节省存储空间 。

在 Java 中，一个 int 类型的整数占 4 字节， 16 比特， int 的最大值也就是 20 多亿（具体是 2147483647 ）。假设现在有一个需求，在 20 亿整数中判断某个整数 m 是否存在，要求使用内存必须小于或者等于 4GB 。如果每个整数都使用 int 存储，那么存放 20 亿个整数，需要 20亿 * 4byte /1024/1024/1024 约等于 7.45GB ，显然无法满足需求。如果使用 BitMap ，只需要 20亿 bit 内存，也就是 20亿/8/1024/1024/1024 约等于 0.233GB 。在数据量极大的情况下，数据集具备有限状态，可以考虑使用 BitMap 存储和进行后续计算等处理。现在假设用 byte 数组去做 BitMap 的底层存储结构，初始化一个容量为 16 的 BitMap 实例，示例如下：

可见当前的 byte 数组有两个元素 bitmap[0] （虚拟下标为 [0,7] ）和 bitmap[1] （虚拟下标为 [8,15] ）。这里假定使用上面构造的这个 BitMap 实例去存储客户 ID 和客户性别关系（比特为 1 代表男性，比特为 0 代表女性），把 ID 等于 3 的男性客户和 ID 等于 10 的女性客户添加到 BitMap 中：

由于 1 byte = 8 bit ，通过客户 ID 除以 8 就可以定位到需要存放的 byte 数组索引，再通过客户 ID 基于 8 取模，就可以得到需要存放的 byte 数组中具体的 bit 的索引：

# ID等于3的男性客户
逻辑索引 = 3
byte数组索引 = 3 / 8 = 0
bit索引 = 3 % 8 = 3
=> 也就是需要存放在byte[0]的下标为3的比特上，该比特设置为1

# ID等于10的女性客户
逻辑索引 = 10
byte数组索引 = 10 / 8 = 1
bit索引 = 10 % 8 = 2
=> 也就是需要存放在byte[1]的下标为2的比特上，该比特设置为0

然后分别判断客户 ID 为 3 或者 10 的客户性别：

如果此时再添加一个客户 ID 为 17 的男性用户，由于旧的 BitMap 只能存放 16 个比特，所以需要扩容，判断 byte 数组中只需新增一个 byte 元素（ byte[2] ）即可：

原则上，底层的 byte 数组可以不停地扩容，当 byte 数组长度达到 Integer.MAX_VALUE ， BitMap 的容量达到最大值。

BitSet简单使用

java.util.BitSet 虽然名字上称为 Set ，但实际上它就是 JDK 中内置的 BitMap 实现，1这个类算是一个十分古老的类，从注释上看是 JDK1.0 引入的，不过大部分方法是 JDK1.4 之后新添加或者更新的。以前一小节的例子基于 BitSet 做一个 Demo ：

public class BitSetApp {

    public static void main(String[] args) {
        BitSet bitmap = new BitSet(16);
        bitmap.set(3, Boolean.TRUE);
        bitmap.set(11, Boolean.FALSE);
        System.out.println("Index 3 of bitmap => " + bitmap.get(3));
        System.out.println("Index 11 of bitmap => " + bitmap.get(11));
        bitmap.set(17, Boolean.TRUE);
        // 这里不会触发扩容，因为BitSet中底层存储数组是long[]
        System.out.println("Index 17 of bitmap => " + bitmap.get(17));
    }
}

// 输出结果
Index 3 of bitmap => true
Index 11 of bitmap => false
Index 17 of bitmap => true

API 使用比较简单，为了满足其他场景， BitSet 还提供了几个实用的静态工厂方法用于构造实例，范围设置和清除比特值和一些集合运算等，这里不举例，后面分析源码的时候会详细展开。

BitSet源码分析

前文提到， BitMap 如果使用 byte 数组存储，当新添加元素的逻辑下标超过了初始化的 byte 数组的最大逻辑下标就必须进行扩容。为了尽可能减少扩容的次数，除了需要按实际情况定义初始化的底层存储结构，还应该选用能够"承载"更多比特的数据类型数组，因此在 BitSet 中底层的存储结构选用了 long 数组，一个 long 整数占 64 比特，位长是一个 byte 整数的 8 倍，在需要处理的数据范围比较大的场景下可以有效减少扩容的次数。后文为了简化分析过程，在模拟底层 long 数组变化时候会使用尽可能少的元素去模拟。 BitSet 顶部有一些关于其设计上的注释，这里简单罗列概括成几点：