前言
有1亿个整数,最大值不超过1亿,问都有哪些元素重复,谁是第一个重复的,谁是第一个不重复的,内存限制100M。
位图法
位图法,就是用一个位(0或者1)来存储数据的状态,比较适合状态简单,数据量比较大,要求
内存使用率低的问题场景。
位图法解决问题,首先需要知道待处理数据中的最大值,然后按照size = (maxNumber / 32)+1
的大小来开辟一个char类型的数组,当需要在位图中查找某个元素是否存在的时候,首先需要计
算该数字对应的数组中的比特位,然后读取值,0表示不存在,1表示已存在。
位图法有一个很大的缺点,就是数据没有多少,但是最大值却很大,比如有10个整数,最大值是10亿,那么就得按10亿这个数字计算开辟位图数组的大小,太浪费内存空间。
过程示例:
- 找出这组数据的最大值,然后根据最大值申请一个位图数组。
7 8 12 15 16 19
char bitmap[19 / 8 + 1];
- 存放过程:根据 / % 两个操作,映射到元素对应的位。示例:
对于元素7,首先计算出下标,再找到该下标对应的某个位。
int index = 7 / 8 ⇒ 0
int offset = 7 % 8 ⇒ 7
对于元素8:
int index = 8 / 8 ⇒ 1
int offset = 8 % 8 ⇒ 0
对于元素15:
int index = 15 / 8 ⇒ 1
int offset = 15 % 8 ⇒ 7
- 如何读取该位置的值?
按位与上offset:
bitmap[index] & (1 << offset)
如何把该位置置成1:
bitmap[index] | (1 << offset)
代码示例
#include<iostream>
#include <stdlib.h>
#include <vector>
#include <memory>
using namespace std;
int main(void)
{
vector<int> vec{ 12, 78, 90, 23, 133, 6, 9, 23, 34, 78 };
// 找到最大值,用来确定bitmap
int max = vec[0];
for (int i = 0; i < vec.size(); ++i)
{
if (vec[i] > max)
{
max = vec[i];
}
}
int* bitmap = new int[max / 32 + 1]();
unique_ptr<int> ptr(bitmap);
// 找到第一个重复的数字
for (int key : vec)
{
int index = key / 32;
int offset = key % 32;
// 取key对应的位的值
if (0 == (bitmap[index] & (1 << offset)))
{
// 表示key没有出现过
bitmap[index] |= (1 << offset);
}
else
{
cout << "第一个重复出现的数字:" << key << endl;
// 如果要找到所有重复的,这里就不退出
return 0;
}
}
return 0;
}
缺陷和建议
位图法虽然看上去比哈希表占用的内存少,但是有些情况下会浪费空间
示例:只有三个数据,但使用位图法会占用大约30M内存
{1, 3, 1000000000}
int bitmap[1000000000 / 32 + 1]; ⇒ 30M
推荐的数据序列:
元素个数与序列里的最大值相当,就比如1亿个元素,最大值不超过一亿。