Jdk中BitSet的使用
优点:大量数据节省内存
jdk中自带的BitSet基于BitMap的思想。
BitMaP中将四个字节的int类型按bit位放置,用每位的0/1表示该数存在与否。第一个字节每bit位代表0-7,依次排列,即原来表示一个int类型数据的内存,可以表示32个(原来是四个字节一个数,现在一个字节8个数),这样的属性也决定了BitMap的并不是适用于所有情况。
BitSet底层是由long[] 实现,对大量数据进行去重,筛选区间优化效果明显。下面给出一个例子,如果将其更改为使用int数组,很大几率会报内存溢出:
import java.util.BitSet;
import java.util.Random;
public class Test {
public static void main(String[] args) {
BitSet bitSet = new BitSet(1000000000);
Random random = new Random(1000000000);
// 随机给10个标志位
for(int i = 0; i < 10; i++){
int randomNumber = Math.abs(random.nextInt());
bitSet.set(randomNumber,true);
}
long l1 = System.currentTimeMillis();
// 找到该范围内的数
System.out.println(bitSet.get(10000, 1000000000).toString());
long l2 = System.currentTimeMillis();
System.out.println(l2-l1);
// 找出所有出现过的数
System.out.println(bitSet.toString());
long l3 = System.currentTimeMillis();
System.out.println(l3-l2);
}
}
结果如下
{106247711, 157359760, 478492776, 612580380, 809710246, 825688090}
225
{106257711, 157369760, 478502776, 612590380, 809720246, 825698090, 1461802568, 1822703649, 1915773886, 2023149161}
64
同样量级的数据使用int数组无法通过编译,故无法比较计算速度。