新C++(12):位图与海量数据处理

"无关利弊或对错,勇气一直在"


现在给你一道面试题:

给40亿个不重复的无符号整数,没有任何排序。给出一个无符号整数,如何快速地判断,该数是否存在于40亿多个这样的无符号整数之中?

唔……我想将这40亿个多数进行快排!得到一个有序序列,emm,然后可以通过二分查找,以LogN的效率查看该数是否存在……

emm,听起来不错,甚至我还想将这40多亿个整数放在红黑树、哈希表中查找……然而,真的可行嘛?

如果是红黑树结构来存储呢? 一个树的节点,最起码就包含三叉链(left,right,parent)。在64位系统中一个指针大小为8byte……想想看,这些庞大的数字堆积起来的内存空间是有多么可怖。

那是否我们就束手无策了呢? 肯定不是!


一、位图

(1)什么是位图结构呢?

位图,所谓bitmap,就是用 每一位来存放某种状态适用于大规模数据,但数据状态又不是很多的情况。通常是用来判断某个数据存不存在的。 取自这里

我们简单地来举个例子:

此时,我们本来用一个4字节int或者1字节的char表示一个整数,变为用一个bit位来标识一个整数是否存在!

因此,用位图结构来处理大量数据时,对于存储数值在内存上的消耗能显著降低。那个面试题的答案也就自然而然能够解决了。

(2)STL位图

C++库中也提供了一份位图结构的数据结构。

二、位图实现

(1)构造函数

    template<size_t N>
    class bitset
    {
    public:
        bitset()
        {
            _bits.resize((N >> 3)+ 1);
        }
        
    private:
        std::vector<char> _bits;
    };

(2)set\reset

位图结构中,set、reset是最重要的。

        void set(size_t x) 
        {
            //第几块
            size_t i = x / 8;
            //第几个比特位
            size_t j = x % 8;

            _bits[i] |= (1 << j);
        }

        void reset(size_t x)
        {
            //第几块
            size_t i = x / 8;
            //第几个比特位
            size_t j = x % 8;
        
            _bits[i] &=~(1 << j);
        }

(3)test

这个接口用来测试,某一个数是否在这个位图中被标记了。

        bool test(size_t x)
        {
            //第几块
            size_t i = x / 8;
            //第几个比特位
            size_t j = x % 8;

            //如果该比特位 是0  返回的是false
            //否则返回 true
            return _bits[i] &= (1 << j);
        }

(4)测试

我们来测试看看吧~


三、位图的其他应用

100亿个整数,找出其中只出现一次的正数
变形:找出出现次数不超过2次的数

我们同样根据两个比特位标识状态:

00:没出现

01:出现一次

10:出现两次

11:出现多次

给两个文件,分别有100亿个整数,但是我们只有1G内存空间,如何找它们的交集。

找100亿个整数只能出现2^32-1个不重复的正数。创建的位图结构顶多占用的内存空间为512MB.

超过100G的日志文件,log中存有IP地址。找出出现次数最多的IP地址。

哈希切分

这样就结束了嘛?显然不是!试想一下,如果你的哈希函数转换的冲突IP地址够多!或者同一个IP地址访问的频率过高,你切分的1GB小文件装不下这些了,该怎么办???


总结:

当然处理大量数据文件,不仅仅用位图就能搞得定。比如文段最末的思想,用到了一种变形的哈希切割。面对什么样的场景,使用什么样的方法。前辈的经验,是我们前行的明灯。

本篇到此结束,感谢你的阅读。

祝你好运,向阳而生~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值