bitmap用途

最新推荐文章于 2024-04-20 22:31:44 发布

FSak47

最新推荐文章于 2024-04-20 22:31:44 发布

阅读量2k

点赞数

分类专栏： bitmap 文章标签：算法

本文链接：https://blog.csdn.net/u010246947/article/details/77452091

版权

bitmap 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

bitmap是压缩存储的一个重要手段，往往在海量数据处理问题中出现到。

其基本原理：希望用每一位能代表一个数字，所以需要首先知道待处理数据的最大值，比如待处理的数据范围是0-1亿，那么申请一个数组，数组的大小为：1亿/32 + 1，最大值1亿会落在最后一个数组成员的第0位，0-1亿范围中的每个数字，根据其除以32的除数结果和余数，可知其落在哪个数组成员以及在该数组成员的哪一位，通过移位可以极快的置为/复位及获取。

这就使得在使用bitmap解决问题时，往往只需要一个相当于O(N)的时间复杂度和O(N/32)的空间复杂度，这个效果往往能够处理很多海量数据问题。

bitmap不大适合负数的情况，如果用到则最好将问题中数据做一定的转化，使没有负数。

bitmap依然有一个重要前提，那就是依然要看题目中的内存限制，如果处理40亿个int整数并且限制为1M，这个bitmap内存也是无法装下的

bitmap典型解决问题如"中等大量数据排序、大量数据的去重、大量数据中找出非重复的、大量数据中出现0-1次、判断一个数字是否出现在海里数据中"等等之类的问题

例一，大量数据中去重、找非重复的：找不重复的电话号码

如果是去重：创建bitmap数组，录入全部电话号码，然后遍历bitmap数组并依次输出，就是去重后的结果

如果是找非重复的：创建两倍大的bitmap数组，每个数据占2个bit，第一个bit依然用于标识自己，第二个bit用于标识出现次数，出现多次的1次的为0，超过一次的为1，然后再遍历bitmap数组，第一bit置位且第二bit为0的就是非重复的

代码：

去重的：

#include <iostream>

int phones[] = {
    23423412,
    23423412,
    23423972,
    23425212,
    23128352,
    23425699,
    22344555,
    23090112,
    23423410,
    23423887,
    23423887,
    23425699,
    23423972,
};

class Bitmap {
    int *data;
    
public:
    Bitmap (int max) {
        data = new int[max/32 + 1];
    }

    ~Bitmap () {
        if (data) {
            delete []data;
        }
    }

    void Set (int d) {
        data[d/32] |= (1 << (d % 32));
    }

    bool Get (int d) {
        return (1 << (d % 32)) & data[d/32];
    }

    int Traverse (int max) {
        int cnt = 0;
        for (int i = 0; i < max/32 + 1; i++) {
            for (int j = 0; j < 32; j++) {
                if (data[i] & (1 << j)) {
                    int d = i * 32 + j;
                    std::cout << d << std::endl;
                    ++cnt;
                }
            }
        }

        return cnt;
    }
};

int main (int argc, char *argv[]) {
    Bitmap bmap(99999999);
    for (int i = 0; i < sizeof(phones)/sizeof(phones[0]); i++) {
        bmap.Set(phones[i]);
    }

    std::cout << bmap.Traverse(99999999) << std::endl;
    return 0;
}

找到非重复的：

#include <iostream>

class Bitmap {
    int *data;
    int max;

public:
    Bitmap (int _max):max(_max) {
        data = new int[max/16 + 1];
        for (int i = 0; i < max/16 + 1; i++) {
            data[i] = 0;
        }
    }

    ~Bitmap () {
        delete []data;
    }

    void Set (int v) {
        if (v > max) {
            return;
        }
        if (data[v/16] & (1 << (v % 16))) {
            data[v/16] |= (1 << ((v % 16) + 1));
        } else {
            data[v/16] |= (1 << (v % 16));
        }
    }

    void Traverse () {
        for (int i = 0; i < max/16 + 1; i++) {
            if (!data[i]) {
                continue;
            }
            for (int j = 0; j < 32; j += 2) {
                if (data[i] & (1 << j)) {
                    if (data[i] & (1 << (j + 1))) {
                        std::cout << (i * 16 + j) << " multi" << std::endl;
                    } else {
                        std::cout << (i * 16 + j) << " single" << std::endl;
                    }
                }
            }
        }
    }
};

int main () {
    Bitmap bp(99999999);
    bp.Set(12345678);
    bp.Set(12345678);
    bp.Set(12345679);
    bp.Set(12345655);
    bp.Set(12334535);
    bp.Set(12234213);
    bp.Set(12341231);
    bp.Set(12345678);
    bp.Set(12341345);
    bp.Set(22245534);
    bp.Set(54575678);
    bp.Set(90895678);
    bp.Set(35455678);
    bp.Set(15665678);
    bp.Set(17775678);
    bp.Set(22245534);
    bp.Set(54575678);
    bp.Set(11233438);
    bp.Set(11233438);
    bp.Set(12390898);
    bp.Set(18999008);
    bp.Set(12655678);
    bp.Set(15665678);
    bp.Set(17775678);
    bp.Set(13245678);

    bp.Traverse();
}

例二：排序

bitmap的排序效果就是自然而然排序了。空间复杂度为O(上限/32)，时间复杂度均为O(N)，把全部数据set进去，然后再从头遍历就行了。

前提：最好就是非重复正整数，数据别重复，重复数据只剩下一个了，另外依然最好别有负数。

bitmap的排序，数量少时相比原地比较排序无太大优势、数据量多时相比线性排序也没有优势。不过虽然在面试题中不很明显，但在实际工作中往往用到。

代码：

#include <random>
#include <iostream>


class Bitmap {
    int *data;

public:
    Bitmap (int max) {
        data = new int[max/32 + 1];
    }

    ~Bitmap () {
        delete []data;
    }

    void Set (int d) {
        data[d / 32] |= (1 << (d % 32));
    }

    void Traverse (int max) {
        for (int i = 0; i < max/32 + 1; i++) {
            for (int j = 0; j < 32; j++) {
                if (data[i] & (1 << j)) {
                    std::cout << i * 32 + j << " ";
                }
            }
        }

        std::cout << std::endl;
    }
};

int main () {
    std::random_device rd;
    Bitmap bmap(10000);
    for (int i = 0; i < 20; i++) {
        int cur = rd() % 10000;
        std::cout << cur << " ";
        bmap.Set(cur);
    }
    std::cout << std::endl;

    bmap.Traverse(10000);
    return 0;
}

FSak47

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
bitmap用途

bitmap是压缩存储的一个重要手段，往往在海量数据处理问题中出现到。其基本原理：希望用每一位能代表一个数字，所以需要首先知道待处理数据的最大值，比如待处理的数据范围是0-1亿，那么申请一个数组，数组的大小为：1亿/32 + 1，最大值1亿会落在最后一个数组成员的第0位，0-1亿范围中的每个数字，根据其除以32的除数结果和余数，可知其落在哪个数组成员以及在该数组成员的哪一位，通过移位可以极快的
复制链接

扫一扫