数据结构与算法:bitmap位图法解决大数据查重问题

前言

有1亿个整数,最大值不超过1亿,问都有哪些元素重复,谁是第一个重复的,谁是第一个不重复的,内存限制100M。

位图法

位图法,就是用一个位(0或者1)来存储数据的状态,比较适合状态简单,数据量比较大,要求
内存使用率低的问题场景。

位图法解决问题,首先需要知道待处理数据中的最大值,然后按照size = (maxNumber / 32)+1
的大小来开辟一个char类型的数组,当需要在位图中查找某个元素是否存在的时候,首先需要计
算该数字对应的数组中的比特位,然后读取值,0表示不存在,1表示已存在。

位图法有一个很大的缺点,就是数据没有多少,但是最大值却很大,比如有10个整数,最大值是10亿,那么就得按10亿这个数字计算开辟位图数组的大小,太浪费内存空间。

过程示例:

  1. 找出这组数据的最大值,然后根据最大值申请一个位图数组。

7 8 12 15 16 19
char bitmap[19 / 8 + 1];

  1. 存放过程:根据 / % 两个操作,映射到元素对应的位。示例:

对于元素7,首先计算出下标,再找到该下标对应的某个位。

int index = 7 / 8 ⇒ 0
int offset = 7 % 8 ⇒ 7

对于元素8:

int index = 8 / 8 ⇒ 1
int offset = 8 % 8 ⇒ 0

对于元素15:

int index = 15 / 8 ⇒ 1
int offset = 15 % 8 ⇒ 7

在这里插入图片描述

  1. 如何读取该位置的值?
    按位与上offset:

bitmap[index] & (1 << offset)

如何把该位置置成1:

bitmap[index] | (1 << offset)

代码示例

#include<iostream>
#include <stdlib.h>
#include <vector>
#include <memory>
using namespace std;

int main(void)
{
	vector<int> vec{ 12, 78, 90, 23, 133, 6, 9, 23, 34, 78 };
	
	//  找到最大值,用来确定bitmap
	int max = vec[0];
	for (int i = 0; i < vec.size(); ++i)
	{
		if (vec[i] > max)
		{
			max = vec[i];
		}
	}

	int* bitmap = new int[max / 32 + 1]();
	unique_ptr<int> ptr(bitmap);

	// 找到第一个重复的数字
	for (int key : vec)
	{
		int index = key / 32;
		int offset = key % 32;

		// 取key对应的位的值
		if (0 == (bitmap[index] & (1 << offset)))
		{
			// 表示key没有出现过
			bitmap[index] |= (1 << offset);
		}
		else
		{
			cout << "第一个重复出现的数字:" << key << endl;
			// 如果要找到所有重复的,这里就不退出
			return 0;
		}
	}

	return 0;
}

在这里插入图片描述

缺陷和建议

位图法虽然看上去比哈希表占用的内存少,但是有些情况下会浪费空间
示例:只有三个数据,但使用位图法会占用大约30M内存

{1, 3, 1000000000}
int bitmap[1000000000 / 32 + 1]; ⇒ 30M

推荐的数据序列:
元素个数与序列里的最大值相当,就比如1亿个元素,最大值不超过一亿。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

_索伦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值