场景:
给出10亿个无序不重复整数,对于某个整数M,是否存在于这10亿个数内,机器内存限定2G,怎么实现?
考虑几个方面的问题:
1.10亿个整数的内存占用时多大?一个整型int占用4个字节(byte),32位(bit)。10亿个整数的内存大小就是
(10亿 * 4[byte])/(1024[KB] * 1024[M] * 1024[G]) = 3.72G。很明显,超出当前机器内存。
2.没法一次性加载到内存里怎么办?可以存放到磁盘里,分段读取,判断,这样的话也是一种办法,但是会浪费IO,导致程序效率不高。
3.此时,二进制可以充分利用起来,二进制只有0和1,0表示不存在,1表示存在,那么最小粒度就是在bit上做文章,而不是像上面说的一个整数需要32bit存储,因此利用"位"的话,每一位都能表示这个数是否存在,那么对于原先1 int表示1个数,此时1 int可以表示32个数,大大提高了内存利用率。如果是这样算的话,需要内存:(10亿)/ (8[bit] * 1024[KB] * 1024[M])= 119M,只需要119M就能在内存里操作了,完全没问题。
思路实现:
为了简化操作和模拟,我们不用int数组,改用byte数组,例如,现在有4个整数{1,5,7,3},如果使用byte数组的话,存储就是下面图中的样式:
如果现在有个整数13,该怎么存呢?很简单,存储到byte[1]里面就行:
那么,对于一个整数来说,其实就是要计算两个值,一个是byte数组的下标(取整操作),另一个就是byte数组内的位置(取余操作)
代码实现:
1. add(新增方法),主要就是计算下标和位置,然后将对应位置置为“1”
public void add(int num){
// num/8得到byte[]的index
int arrayIndex = num >> 3;
// num%8得到在byte[index]的位置
int position = num & 0x07;
//将1左移position后,那个位置自然就是1,然后和以前的数据做|,这样,那个位置就替换成1了。
bits[arrayIndex] |= 1 << position;
}
2. clear(去除方法),将“1”左移对应位数然后取反再&操作就行。
public void clear(int num){
// num/8得到byte[]的index
int arrayIndex = num >> 3;
// num%8得到在byte[index]的位置
int position = num & 0x07;
//将1左移position后,那个位置自然就是1,然后对取反,再与当前值做&,即可清除当前的位置了.
bits[arrayIndex] &= ~(1 << position);
}
3. contains(是否包含方法)。
public boolean contain(int num){
// num/8得到byte[]的index
int arrayIndex = num >> 3;
// num%8得到在byte[index]的位置
int position = num & 0x07;
//将1左移position后,那个位置自然就是1,然后和以前的数据做&,判断是否为0即可
return (bits[arrayIndex] & (1 << position)) !=0;
}
主要就是这三段逻辑,完整代码如下:
public class BitMap {
//保存数据的
private byte[] bits;
//能够存储多少数据
private int capacity;
public BitMap(int capacity){
this.capacity = capacity;
//1bit能存储8个数据,那么capacity数据需要多少个bit呢,capacity/8+1,右移3位相当于除以8
bits = new byte[(capacity >>3 )+1];
}
public void add(int num){
// num/8得到byte[]的index
int arrayIndex = num >> 3;
// num%8得到在byte[index]的位置
int position = num & 0x07;
//将1左移position后,那个位置自然就是1,然后和以前的数据做|,这样,那个位置就替换成1了。
bits[arrayIndex] |= 1 << position;
}
public boolean contain(int num){
// num/8得到byte[]的index
int arrayIndex = num >> 3;
// num%8得到在byte[index]的位置
int position = num & 0x07;
//将1左移position后,那个位置自然就是1,然后和以前的数据做&,判断是否为0即可
return (bits[arrayIndex] & (1 << position)) !=0;
}
public void clear(int num){
// num/8得到byte[]的index
int arrayIndex = num >> 3;
// num%8得到在byte[index]的位置
int position = num & 0x07;
//将1左移position后,那个位置自然就是1,然后对取反,再与当前值做&,即可清除当前的位置了.
bits[arrayIndex] &= ~(1 << position);
}
public static void main(String[] args) {
BitMap bitmap = new BitMap(100);
bitmap.add(7);
System.out.println("插入7成功");
boolean isexsit = bitmap.contain(7);
System.out.println("7是否存在:"+isexsit);
bitmap.clear(7);
isexsit = bitmap.contain(7);
System.out.println("7是否存在:"+isexsit);
}
}
参考博客: