bitmap是压缩存储的一个重要手段,往往在海量数据处理问题中出现到。
其基本原理:希望用每一位能代表一个数字,所以需要首先知道待处理数据的最大值,比如待处理的数据范围是0-1亿,那么申请一个数组,数组的大小为:1亿/32 + 1,最大值1亿会落在最后一个数组成员的第0位,0-1亿范围中的每个数字,根据其除以32的除数结果和余数,可知其落在哪个数组成员以及在该数组成员的哪一位,通过移位可以极快的置为/复位及获取。
这就使得在使用bitmap解决问题时,往往只需要一个相当于O(N)的时间复杂度和O(N/32)的空间复杂度,这个效果往往能够处理很多海量数据问题。
bitmap不大适合负数的情况,如果用到则最好将问题中数据做一定的转化,使没有负数。
bitmap依然有一个重要前提,那就是依然要看题目中的内存限制,如果处理40亿个int整数并且限制为1M,这个bitmap内存也是无法装下的
bitmap典型解决问题如"中等大量数据排序、大量数据的去重、大量数据中找出非重复的、大量数据中出现0-1次、判断一个数字是否出现在海里数据中"等等之类的问题
例一,大量数据中去重、找非重复的:找不重复的电话号码
如果是去重:创建bitmap数组,录入全部电话号码,然后遍历bitmap数组并依次输出,就是去重后的结果
如果是找非重复的:创建两倍大的bitmap数组,每个数据占2个bit,第一个bit依然用于标识自己,第二个bit用于标识出现次数,出现多次的1次的为0,超过一次的为1,然后再遍历bitmap数组,第一bit置位且第二bit为0的就是非重复的
代码:
去重的:
#include <iostream>
int phones[] = {
23423412,
23423412,
23423972,
23425212,
23128352,
23425699,
22344555,
23090112,
23423410,
23423887,
23423887,
23425699,
23423972,
};
class Bitmap {
int *data;
public:
Bitmap (int max) {
data = new int[max/32 + 1];
}
~Bitmap () {
if (data) {
delete []data;
}
}
void Set (int d) {
data[d/32] |= (1 << (d % 32));
}
bool Get (int d) {
return (1 << (d % 32)) & data[d/32];
}
int Traverse (int max) {
int cnt = 0;
for (int i = 0; i < max/32 + 1; i++) {
for (int j = 0; j < 32; j++) {
if (data[i] & (1 << j)) {
int d = i * 32 + j;
std::cout << d << std::endl;
++cnt;
}
}
}
return cnt;
}
};
int main (int argc, char *argv[]) {
Bitmap bmap(99999999);
for (int i = 0; i < sizeof(phones)/sizeof(phones[0]); i++) {
bmap.Set(phones[i]);
}
std::cout << bmap.Traverse(99999999) << std::endl;
return 0;
}
找到非重复的:
#include <iostream>
class Bitmap {
int *data;
int max;
public:
Bitmap (int _max):max(_max) {
data = new int[max/16 + 1];
for (int i = 0; i < max/16 + 1; i++) {
data[i] = 0;
}
}
~Bitmap () {
delete []data;
}
void Set (int v) {
if (v > max) {
return;
}
if (data[v/16] & (1 << (v % 16))) {
data[v/16] |= (1 << ((v % 16) + 1));
} else {
data[v/16] |= (1 << (v % 16));
}
}
void Traverse () {
for (int i = 0; i < max/16 + 1; i++) {
if (!data[i]) {
continue;
}
for (int j = 0; j < 32; j += 2) {
if (data[i] & (1 << j)) {
if (data[i] & (1 << (j + 1))) {
std::cout << (i * 16 + j) << " multi" << std::endl;
} else {
std::cout << (i * 16 + j) << " single" << std::endl;
}
}
}
}
}
};
int main () {
Bitmap bp(99999999);
bp.Set(12345678);
bp.Set(12345678);
bp.Set(12345679);
bp.Set(12345655);
bp.Set(12334535);
bp.Set(12234213);
bp.Set(12341231);
bp.Set(12345678);
bp.Set(12341345);
bp.Set(22245534);
bp.Set(54575678);
bp.Set(90895678);
bp.Set(35455678);
bp.Set(15665678);
bp.Set(17775678);
bp.Set(22245534);
bp.Set(54575678);
bp.Set(11233438);
bp.Set(11233438);
bp.Set(12390898);
bp.Set(18999008);
bp.Set(12655678);
bp.Set(15665678);
bp.Set(17775678);
bp.Set(13245678);
bp.Traverse();
}
bitmap的排序效果就是自然而然排序了。空间复杂度为O(上限/32),时间复杂度均为O(N),把全部数据set进去,然后再从头遍历就行了。
前提:最好就是非重复正整数,数据别重复,重复数据只剩下一个了,另外依然最好别有负数。
bitmap的排序,数量少时相比原地比较排序无太大优势、数据量多时相比线性排序也没有优势。不过虽然在面试题中不很明显,但在实际工作中往往用到。
代码:
#include <random>
#include <iostream>
class Bitmap {
int *data;
public:
Bitmap (int max) {
data = new int[max/32 + 1];
}
~Bitmap () {
delete []data;
}
void Set (int d) {
data[d / 32] |= (1 << (d % 32));
}
void Traverse (int max) {
for (int i = 0; i < max/32 + 1; i++) {
for (int j = 0; j < 32; j++) {
if (data[i] & (1 << j)) {
std::cout << i * 32 + j << " ";
}
}
}
std::cout << std::endl;
}
};
int main () {
std::random_device rd;
Bitmap bmap(10000);
for (int i = 0; i < 20; i++) {
int cur = rd() % 10000;
std::cout << cur << " ";
bmap.Set(cur);
}
std::cout << std::endl;
bmap.Traverse(10000);
return 0;
}