hash的空间复杂度又相对比较大,所以用bitmap来减少hash算法所需的空间。
一般的hash,例如对数组[2, 3, 5, 10] 运用桶排序算法,需要声明10个整数的bucket,如下图所示:
0 | 1 | 1 | 0 | 1 | 0 | 0 | 0 | 0 | 1 |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
但是如果用bitmap的话,只需一个整数,因为一个整数(32位机)的话有32bit,每个bit都能map一个整数,如下图所示:
1 | 1 | 1 | 1 | |||||||||||||
31 | 30 | … | 3 | 2 | 1 | 0 | 31 | … | 9 | … | 5 | 4 | 3 | 2 | 1 | 0 |
数组元素1 | 数组元素0 |
所以关键就是位操作set, clear, test:
#define BITSPERWORD 32
#define SHIFT 5
#define MASK 0x1f
typedef long long int64;
int array[100000];
/**
*
* i / 32 对应具体数组元素
* i % 32 对应具体数组元素的bit位
* i >> SHIFT == i / 32
* i & MASK == i % 32
* (32) = (100000)
*
**/
void set(int64 i)
{
array[ i >> SHIFT] |= ( 1 << ( i & MASK));
}
void clear(int64 i)
{
array[ i >> SHIFT] &= ~( 1 << ( i & MASK));
}
int test(int64 i)
{
return array[ i >> SHIFT] & ( 1 << ( i & MASK));
}
例如某公司面试题:
在一个文件中有 10G 个整数,乱序排列,要求找出中位数。内存限制为 2G。只写出思路即可。
10G整数做bitmap需要10G/32 = 0.3G 个整数(< 32位机器总共可以的2^31-1 = 2G个整数),0.3G个整数只需要0.3G*4=1.2G的存储空间,故可以只扫描一遍,就可以求出中位数。
>----------------------------------------------------------------------------------------------<
简单的说就是用数组存放若有数据就标志为1或true,若不存在标志为0或false。比如1,2,2,5,这里最大值为5,0至5中不存0,3,4,所以:
Array[0]=0,Array[1]=1,Array[2]=2,Array[3]=0,Array[4]=0,Array[5]=1
上面数中由于2有两个,所以用int存数组的值(等于给上面所说的每一位扩展了一个counter,用空间换能力),不用boolean型,这样如果有多个同样的数字可以用值表示个数。如上面Array[2]=2,就表示2有2个。
这样排序就方便多了,比如上面开始是{2,5,2,1}这样一无序数组A。找出最大值:5.即用来作位图排序的数组B要申请的大小为5.循环这个数组,把数组A的值用作数组B的下标,如果存在就把值加1,即数组B的值为对应的个数。
for (int i : A) {
B[i]++;
}
这样B的值最后同上面的Array一样。把B值大于0的输出就是排好序的了。如上面的数组大于0依次有:1,2,2,5.
从上面可以看出位图排序至少要注意两点:
1、 最大值和最小值之间不能相差太大,否则浪费空间。
2、 如果有负数,上面要转换一下,最申请的空间大小为max-min+1,数组B的下标也要作对应的转换,输出前也要转换回去。如int[] arr = { 1, 3, -3, 0, 0};