位图bitset及其应用——【C++实现】

bitse

本章代码gitee仓库:位图实现及其应用

1.位图的概念

当面对海量数据时,我们一般的数据结构无法存储那么多的值,要对这些数据进行分析,我们就可以采用位图来对这些数据进行标记(不是存储)。位图适用于海量数据,数据无重复的场景,通常用来判断这个数据是否存在

给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中。【腾讯】

  • 方法1:

    直接遍历,时间复杂度为O(N)

  • 方法2:

    先排序(O(N*logN)),再用二分(O(logN))

以上这两种方法,都忽略了,这是40亿无符号整数,差不多需要16G的空间,这对于我们普通的电脑,是行不通的。

那在这种情况下,就可以使用位图解决

如图示例(小端平台):

image-20230922154622090

2. 位图的实现

template<size_t N>
class bitset
{
public:

    bitset()
    {
        _a.resize(N / 32 + 1, 0);	//至多多开一个int 空间
    }


    void set(size_t x)
    {
        size_t i = x / 32;
        size_t j = x % 32;
        //置1
        _a[i] |= (1 << j);
    }

    void reset(size_t x)
    {
        size_t i = x / 32;
        size_t j = x % 32;

        //置0
        _a[i] &= ~(1 << j);
    }

    bool test(size_t x)
    {
        size_t i = x / 32;
        size_t j = x % 32;
        return _a[i] & (1 << j);
    }

private:
    vector<int> _a;
};
  • 这里采用vector来管理位集合的数据,int4byte,占32个比特位
  • 采用非类型模板参数,来表示要开多少个空间,N/32 + 1,这里防止开的空间不够,所有每次直接+1,至多多开一个整型空间

3. 位图应用

  1. 快速查找某个数据是否在一个集合中
  2. 排序 + 去重
  3. 求两个集合的交集、并集等
  4. 操作系统中磁盘块标记

相关题目:

  1. 给定100亿个整数,设计算法找到只出现一次的整数?

这题我们可以采用2个位图解决,01表示出现一次,10表示2次及以上的数据

template<size_t N>
class twobitset
{
public:
    void set(size_t x)
    {
        if (!bt1.test(x) && !bt2.test(x))
        {
            //出现一次的数据
            //00 ->01
            bt2.set(x);
        }
        else if (!bt1.test(x) && bt2.test(x))
        {
            //2次及以上
            //01->10
            bt2.reset(x);
            bt1.set(x);
        }
    }

    bool is_once(size_t x)
    {
        return !bt1.test(x) && bt2.test(x);
    }

private:
    bitset<N> bt1;
    bitset<N> bt2;
};

//模拟
void isOnce()
{
	bitSet::twobitset<100> tbt;
	int arr[] = { 1,2,3,3,44,6,6,4,4,6,3,1,9,6,8 ,3,22 };
	for (auto e : arr)
	{
		tbt.set(e);
	}

	for (auto e : arr)
	{
		if (tbt.is_once(e))
			cout << e << " ";
	}cout << endl;
}
  1. 给两个文件,分别有100亿个整数,我们只有1G内存,如何找到两个文件交集?

这题也是采用位图,先将数据映射到位图中,然后再比较这两个位图各位

void IN()
{
	bitSet::bitset<32> bt1;
	bitSet::bitset<32> bt2;

	int arr1[] = { 10,52,20,23,9,22 ,22 ,22 };
	for (auto e : arr1)
	{
		bt1.set(e);
	}
	int arr2[] = { 11,21,23,14,22,52 };
	for (auto e : arr2)
	{
		bt2.set(e);
	}

	for (int i = 10; i < 55; i++)
	{
		if (bt1.test(i) && bt2.test(i))
		{
			cout << i << " ";
		}
	}cout << endl;
}
  1. 1个文件有100亿个int,1G内存,设计算法找到出现次数不超过2次的所有整数

这题与第一个类似,我们也是采用两个位图,01只出现一次,10出现两次,11出现2次以上

template<size_t N>
class twobitset
{
public:
    void set(size_t x)
    {
        if (!bt1.test(x) && !bt2.test(x))
        {
            //00 ->01
            bt2.set(x);
        }
        else if (!bt1.test(x) && bt2.test(x))
        {
            //01->10
            bt2.reset(x);
            bt1.set(x);
        }
        else if (bt1.test(x) && !bt2.test(x))
        {
            //10->11
            bt1.set(x);
            bt2.set(x);
        }
    }

    bool is_once(size_t x)
    {
        return !bt1.test(x) && bt2.test(x);
    }

    //00
    //01
    //11
    bool lessTwo(size_t x)
    {
        if ((!bt1.test(x) && bt2.test(x)) || (bt1.test(x) && !bt2.test(x)))
        {
            bt1.reset(x);
            bt2.reset(x);
            return true;
        }
        return false;
    }

private:
    bitset<N> bt1;
    bitset<N> bt2;
};

//模拟
void LessTwo()
{
	bitSet::twobitset<10> bt;
	int arr[] = { 1,1,2,2,3,3,5,5,5,9,7,7,7,8,8,8,8,1 };
	for (auto e : arr)
	{
		bt.set(e);
	}

	for (auto e : arr)
	{
		if (bt.lessTwo(e))
		{
			cout << e << " ";
		}
	}cout << endl;
}

C++STL库里面bitset支持的接口:
在这里插入图片描述
有兴趣的可以查阅文档:bitset


那么本次的分享就到这里,我们下期再见,如果还有下期的话。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

加法器+

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值