bitmap用途

bitmap是压缩存储的一个重要手段,往往在海量数据处理问题中出现到。

其基本原理:希望用每一位能代表一个数字,所以需要首先知道待处理数据的最大值,比如待处理的数据范围是0-1亿,那么申请一个数组,数组的大小为:1亿/32 + 1,最大值1亿会落在最后一个数组成员的第0位,0-1亿范围中的每个数字,根据其除以32的除数结果和余数,可知其落在哪个数组成员以及在该数组成员的哪一位,通过移位可以极快的置为/复位及获取。

这就使得在使用bitmap解决问题时,往往只需要一个相当于O(N)的时间复杂度和O(N/32)的空间复杂度,这个效果往往能够处理很多海量数据问题。


bitmap不大适合负数的情况,如果用到则最好将问题中数据做一定的转化,使没有负数。

bitmap依然有一个重要前提,那就是依然要看题目中的内存限制,如果处理40亿个int整数并且限制为1M,这个bitmap内存也是无法装下的

bitmap典型解决问题如"中等大量数据排序、大量数据的去重、大量数据中找出非重复的、大量数据中出现0-1次、判断一个数字是否出现在海里数据中"等等之类的问题


例一,大量数据中去重、找非重复的:找不重复的电话号码

如果是去重:创建bitmap数组,录入全部电话号码,然后遍历bitmap数组并依次输出,就是去重后的结果

如果是找非重复的:创建两倍大的bitmap数组,每个数据占2个bit,第一个bit依然用于标识自己,第二个bit用于标识出现次数,出现多次的1次的为0,超过一次的为1,然后再遍历bitmap数组,第一bit置位且第二bit为0的就是非重复的


代码:

去重的:

#include <iostream>

int phones[] = {
    23423412,
    23423412,
    23423972,
    23425212,
    23128352,
    23425699,
    22344555,
    23090112,
    23423410,
    23423887,
    23423887,
    23425699,
    23423972,
};

class Bitmap {
    int *data;
    
public:
    Bitmap (int max) {
        data = new int[max/32 + 1];
    }

    ~Bitmap () {
        if (data) {
            delete []data;
        }
    }

    void Set (int d) {
        data[d/32] |= (1 << (d % 32));
    }

    bool Get (int d) {
        return (1 << (d % 32)) & data[d/32];
    }

    int Traverse (int max) {
        int cnt = 0;
        for (int i = 0; i < max/32 + 1; i++) {
            for (int j = 0; j < 32; j++) {
                if (data[i] & (1 << j)) {
                    int d = i * 32 + j;
                    std::cout << d << std::endl;
                    ++cnt;
                }
            }
        }

        return cnt;
    }
};

int main (int argc, char *argv[]) {
    Bitmap bmap(99999999);
    for (int i = 0; i < sizeof(phones)/sizeof(phones[0]); i++) {
        bmap.Set(phones[i]);
    }

    std::cout << bmap.Traverse(99999999) << std::endl;
    return 0;
}

找到非重复的:

#include <iostream>

class Bitmap {
    int *data;
    int max;

public:
    Bitmap (int _max):max(_max) {
        data = new int[max/16 + 1];
        for (int i = 0; i < max/16 + 1; i++) {
            data[i] = 0;
        }
    }

    ~Bitmap () {
        delete []data;
    }

    void Set (int v) {
        if (v > max) {
            return;
        }
        if (data[v/16] & (1 << (v % 16))) {
            data[v/16] |= (1 << ((v % 16) + 1));
        } else {
            data[v/16] |= (1 << (v % 16));
        }
    }

    void Traverse () {
        for (int i = 0; i < max/16 + 1; i++) {
            if (!data[i]) {
                continue;
            }
            for (int j = 0; j < 32; j += 2) {
                if (data[i] & (1 << j)) {
                    if (data[i] & (1 << (j + 1))) {
                        std::cout << (i * 16 + j) << " multi" << std::endl;
                    } else {
                        std::cout << (i * 16 + j) << " single" << std::endl;
                    }
                }
            }
        }
    }
};

int main () {
    Bitmap bp(99999999);
    bp.Set(12345678);
    bp.Set(12345678);
    bp.Set(12345679);
    bp.Set(12345655);
    bp.Set(12334535);
    bp.Set(12234213);
    bp.Set(12341231);
    bp.Set(12345678);
    bp.Set(12341345);
    bp.Set(22245534);
    bp.Set(54575678);
    bp.Set(90895678);
    bp.Set(35455678);
    bp.Set(15665678);
    bp.Set(17775678);
    bp.Set(22245534);
    bp.Set(54575678);
    bp.Set(11233438);
    bp.Set(11233438);
    bp.Set(12390898);
    bp.Set(18999008);
    bp.Set(12655678);
    bp.Set(15665678);
    bp.Set(17775678);
    bp.Set(13245678);

    bp.Traverse();
}


例二:排序

bitmap的排序效果就是自然而然排序了。空间复杂度为O(上限/32),时间复杂度均为O(N),把全部数据set进去,然后再从头遍历就行了。

前提:最好就是非重复正整数,数据别重复,重复数据只剩下一个了,另外依然最好别有负数。

bitmap的排序,数量少时相比原地比较排序无太大优势、数据量多时相比线性排序也没有优势。不过虽然在面试题中不很明显,但在实际工作中往往用到。


代码:

#include <random>
#include <iostream>


class Bitmap {
    int *data;

public:
    Bitmap (int max) {
        data = new int[max/32 + 1];
    }

    ~Bitmap () {
        delete []data;
    }

    void Set (int d) {
        data[d / 32] |= (1 << (d % 32));
    }

    void Traverse (int max) {
        for (int i = 0; i < max/32 + 1; i++) {
            for (int j = 0; j < 32; j++) {
                if (data[i] & (1 << j)) {
                    std::cout << i * 32 + j << " ";
                }
            }
        }

        std::cout << std::endl;
    }
};

int main () {
    std::random_device rd;
    Bitmap bmap(10000);
    for (int i = 0; i < 20; i++) {
        int cur = rd() % 10000;
        std::cout << cur << " ";
        bmap.Set(cur);
    }
    std::cout << std::endl;

    bmap.Traverse(10000);
    return 0;
}



  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值