BitMap玩法初探

最新推荐文章于 2022-05-04 15:06:54 发布

RenegadePISTA

最新推荐文章于 2022-05-04 15:06:54 发布

阅读量210

点赞数

本文链接：https://blog.csdn.net/NICVSY/article/details/112230966

版权

Bit-map的基本思想就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来存储数据，因此在存储空间方面，可以大大节省。（PS：划重点 节省存储空间）

贴几个基本概念：

在Java中8大基本类型占用字节情况：

整数型：
byte 1字节
short 2字节
int 4字节
long 8字节

浮点型：
float 4字节
double 8字节

字符型：
char 2字节

布尔型：
boolean 1字节

一个字节等于8位就是：1byte = 8bit

位运算：

在Java中，int数据底层以补码形式存储。int型变量使用32bit存储数据，其中最高位是符号位，0表示正数，1表示负数，可通过Integer.toBinaryString()转换为bit字符串，

输出：

左移<< 例如：5 << 2 = 20

在数字没有溢出的前提下，对于正数和负数，左移一位都相当于乘以2的1次方，左移n位就相当于乘以2的n次方

例如将5转换为2进制表示形式：0000 0000 0000 0000 0000 0000 0000 0101

然后左移2位后，低位补0： 0000 0000 0000 0000 0000 0000 0001 0100 换算成10进制为20

实际上，只要是乘以或除以一个整数，均可以用移位的方法得到结果如：

　　a=a*5

　　分析a9可以拆分成a(4+1)即a4+a1, 因此可以改为： a=(a<<2)+a

【注意】由于+/-运算符优先级比移位运算符高，所以在写公式时候一定要记得添加括号，不可以 a = a*12 等价于 a = a<<3 +a <<2; 要写成a = (a<<3)+(a <<2 )。

右移>> 　例如： 5 >> 2 = 1

在数字没有溢出的前提下，对于正数和负数，右移一位相当于除2，右移n位相当于除以2的n次方。

还是先将5转为2进制表示形式： 0000 0000 0000 0000 0000 0000 0000 0101

然后右移2位，高位补0： 0000 0000 0000 0000 0000 0000 0000 0001 换算成十进制后是1 (多余部分直接切掉)

无符号右移>>>

5>>>3

我们知道在Java中int类型占32位，可以表示一个正数，也可以表示一个负数。正数换算成二进制后的最高位为0，负数的二进制最高为为1。对于2进制补码的加法运算，和平常的计算一样，而且符号位也参与运算，不过最后只保留32位。

-5换算成二进制： 1111 1111 1111 1111 1111 1111 1111 1011

-5右移3位： 1111 1111 1111 1111 1111 1111 1111 1111 // (用1进行补位，结果为-1，正数高位补0)

-5无符号右移3位: 0001 1111 1111 1111 1111 1111 1111 1111 // (用0进行补位,结果536870911 )

位与&

第一个操作数的的第n位于第二个操作数的第n位如果都是1，那么结果的第n为也为1，否则为0

位或|

第一个操作数的的第n位于第二个操作数的第n位只要有一个为1则为1，否则为0

^ 异或

第一个操作数的的第n位于第二个操作数的第n位只要不同（值不同，就是一个0一个1），就为1，否则为0

相当于求余数，例如：47^32 相当于 48%32=15

重点来了：

现在有这样一个需求：在20亿个随机整数中找出某个数m是否存在其中，并假设32位操作系统，4G内存

如果每个数字用int存储，那就是20亿个int，因而占用的空间约为 (2000000000*4/1024/1024/1024)≈7.45G

如果按位存储就不一样了，20亿个数就是20亿位，占用空间约为 (2000000000/8/1024/1024/1024)≈0.23G

高下立判，无需多言

那么，问题来了，如何表示一个数呢？

刚才说了，每一位表示一个数，0表示不存在，1表示存在，这正符合二进制

这样我们可以很容易表示{1,2,4,6}这几个数：

盗个图。自己画不好

计算机内存分配的最小单位是字节，也就是8位，那如果要表示{12,13,15}怎么办呢？

当然是在另一个8位上表示了

　如何判断int数字在tmp数组的哪个下标，这个其实可以通过直接除以32取整数部分，例如：整数8除以32取整等于0，那么8就在tmp[0]上。另外，我们如何知道了8在tmp[0]中的32个位中的哪个位，这种情况直接mod上32就ok，又如整数8，在tmp[0]中的第8 mod上32等于8，那么整数8就在tmp[0]中的第八个bit位（从右边数起）。

贴下bitmap源码

private long length;
private static int[] bitsMap;
private static final int[] BIT_VALUE = {0x00000001, 0x00000002, 0x00000004, 0x00000008, 0x00000010, 0x00000020,
0x00000040, 0x00000080, 0x00000100, 0x00000200, 0x00000400, 0x00000800, 0x00001000, 0x00002000, 0x00004000,
0x00008000, 0x00010000, 0x00020000, 0x00040000, 0x00080000, 0x00100000, 0x00200000, 0x00400000, 0x00800000,
0x01000000, 0x02000000, 0x04000000, 0x08000000, 0x10000000, 0x20000000, 0x40000000, 0x80000000};

public BitMap2(long length) {
this.length = length;
/**
* 根据长度算出，所需数组大小
* 当 length%32=0 时大小等于
* = length/32
* 当 length%32>0 时大小等于
* = length/32+l
*/
bitsMap = new int[(int) (length >> 5) + ((length & 31) > 0 ? 1 : 0)];
}

/**
* @param n 要被设置的值为n
*/
public void setN(long n) {
if (n < 0 || n > length) {
throw new IllegalArgumentException("length value "+n+" is illegal!");
}
// 求出该n所在bitMap的下标,等价于"n/5"
int index = (int) n>>5;
// 求出该值的偏移量(求余),等价于"n%31"
int offset = (int) n & 31;
/**
* 等价于
* int bits = bitsMap[index];
* bitsMap[index]=bits| BIT_VALUE[offset];
* 例如,n=3时,设置byte第4个位置为1 （从0开始计数，bitsMap[0]可代表的数为：0~31，从左到右每一个bit位表示一位数）
* bitsMap[0]=00000000 00000000 00000000 00000000 | 00000000 00000000 00000000 00001000=00000000 00000000 00000000 00000000 00001000
* 即: bitsMap[0]= 0 | 0x00000008 = 3
*
* 例如,n=4时,设置byte第5个位置为1
* bitsMap[0]=00000000 00000000 00000000 00001000 | 00000000 00000000 00000000 00010000=00000000 00000000 00000000 00000000 00011000
* 即: bitsMap[0]=3 | 0x00000010 = 12
*/
bitsMap[index] |= BIT_VALUE[offset];

}
/**
* 获取值N是否存在
* @return 1：存在，0：不存在
*/
public int isExist(long n) {
if (n < 0 || n > length) {
throw new IllegalArgumentException("length value illegal!");
}
int index = (int) n>>5;
int offset = (int) n & 31;
int bits = (int) bitsMap[index];
// System.out.println("n="+n+",index="+index+",offset="+offset+",bits="+Integer.toBinaryString(bitsMap[index]));
return ((bits & BIT_VALUE[offset])) >>> offset;
}

添加

这里有个问题，我们怎么把一个数放进去呢？例如，想把5这个数字放进去，怎么做呢？

首先，5/32=0，5%32=5，也是说它应该在tmp[0]的第5个位置，那我们把1向左移动5位，然后按位或

换成二进制就是

这就相当于 86 | 32 = 118

86 | (1<<5) = 118

b[0] = b[0] | (1<<5)

也就是说，要想插入一个数，将1左移带代表该数字的那一位，然后与原数进行按位或操作

化简一下，就是 86 + (5/8) | (1<<(5%8))

因此，公式可以概括为：p + (i/8)|(1<<(i%8)) 其中，p表示现在的值，i表示待插入的数

清除

以上是添加，那如果要清除该怎么做呢？

还是上面的例子，假设我们要6移除，该怎么做呢？

从图上看，只需将该数所在的位置为0即可

1左移6位，就到达6这个数字所代表的位，然后按位取反，最后与原数按位与，这样就把该位置为0了

b[0] = b[0] & (~(1<<6))

b[0] = b[0] & (~(1<<(i%8)))、

上代码：

public class BitMap {
//保存数据的
private byte[] bits;

//能够存储多少数据
private int capacity;


public BitMap(int capacity){
this.capacity = capacity;

//1bit能存储8个数据，那么capacity数据需要多少个bit呢，capacity/8+1,右移3位相当于除以8
bits = new byte[(capacity >>3 )+1];
}

public void add(int num){
// num/8得到byte[]的index
int arrayIndex = num >> 3;

// num%8得到在byte[index]的位置
int position = num & 0x07;

//将1左移position后，那个位置自然就是1，然后和以前的数据做|，这样，那个位置就替换成1了。
bits[arrayIndex] |= 1 << position;
}

public boolean contain(int num){
// num/8得到byte[]的index
int arrayIndex = num >> 3;

// num%8得到在byte[index]的位置
int position = num & 0x07;

//将1左移position后，那个位置自然就是1，然后和以前的数据做&，判断是否为0即可
return (bits[arrayIndex] & (1 << position)) !=0;
}

public void clear(int num){
// num/8得到byte[]的index
int arrayIndex = num >> 3;

// num%8得到在byte[index]的位置
int position = num & 0x07;

//将1左移position后，那个位置自然就是1，然后对取反，再与当前值做&，即可清除当前的位置了.
bits[arrayIndex] &= ~(1 << position);

}

public static void main(String[] args) {
BitMap bitmap = new BitMap(100);
bitmap.add(7);
System.out.println("插入7成功");

boolean isexsit = bitmap.contain(7);
System.out.println("7是否存在:"+isexsit);

bitmap.clear(7);
isexsit = bitmap.contain(7);
System.out.println("7是否存在:"+isexsit);
}
}

查找

前面我们也说了，每一位代表一个数字，1表示有（或者说存在），0表示无（或者说不存在）。通过把该为置为1或者0来达到添加和清除的小伙，那么判断一个数存不存在就是判断该数所在的位是0还是1

假设，我们想知道3在不在，那么只需判断 b[0] & (1<<3) 如果这个值是0，则不存在，如果是1，就表示存在

应用场景：

　1：看个小场景 > 在3亿个整数中找出不重复的整数，限制内存不足以容纳3亿个整数。

　　对于这种场景我可以采用2-BitMap来解决，即为每个整数分配2bit，用不同的0、1组合来标识特殊意思，如00表示此整数没有出现过，01表示出现一次，11表示出现过多次，就可以找出重复的整数了，其需要的内存空间是正常BitMap的2倍，为：3亿*2/8/1024/1024=71.5MB。

　　具体的过程如下：

　　扫描着3亿个整数，组BitMap，先查看BitMap中的对应位置，如果00则变成01，是01则变成11，是11则保持不变，当将3亿个整数扫描完之后也就是说整个BitMap已经组装完毕。最后查看BitMap将对应位为11的整数输出即可。

例如：数字0 占 index[0]和[1]的位置

　　2:已知某个文件内包含一些电话号码，每个号码为8位数字，统计不同号码的个数。

　　8位最多99 999 999，大概需要99m个bit，大概10几m字节的内存即可。（可以理解为从0-99 999 999的数字，每个数字对应一个Bit位，所以只需要99M个Bit==1.2MBytes，这样，就用了小小的1.2M左右的内存表示了所有的8位数的电话）　

RenegadePISTA

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
BitMap玩法初探

Bit-map的基本思想就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来存储数据，因此在存储空间方面，可以大大节省。（PS：划重点节省存储空间）贴几个基本概念：在Java中8大基本类型占用字节情况：整数型：byte1字节short2字节int4字节long8字节浮点型：float4字节double8字节字符型：char2字节布尔型：boolean1字节一个字节等于8位就是：1byte = 8bit位运算：在...
复制链接

扫一扫