我们在玩手机的时候,软件会给我们推送一些新消息,软件如何保证我们哪些消息看过,哪些消息没看过呢?
解决办法:用一个服务器记录我们看过的内容,为了保证能够快速查询,我们可以使用哈希表存储用户信息,但是浪费空间,我们使用位图进行存储,但是不能解决哈希冲突,将哈希表与位图结合—布隆过滤器。
布隆过滤器
是一种概率性数据结构,能够高效的查询,插入,可以告诉管理员什么东西一定不存在或者可能存在。
实现原理:
我们在快速查询一个数据是否存在时,通常有以下两种比较好的方法。
- 可以使用Hashmap进行查询时间复杂度为O(1),但是这样做比较耗费空间,
- 通过位图的形式,判断该元素是否存在,但是不能解决冲突问题。
我们将以上两种结构进行整合:通过哈希函数将保存结果映射到位图中。
- 插入过程
- 查询过程
例如:
我们想要查询com这个元素是否存在,我们通过哈希函数得出其对应的bit是1,6,7我们发现1这个bit位值为0,所以我们可以判断出其com一定不存在。
我们查询元素你好时,当通过哈希函数返回的bit位为2,4,5我们可以得出这个元素可能存在,因为当元素插入的越多其bit位置1的情况也就越多,所以其值可能存在。 - 删除过程
==布隆过滤器不支持删除,因为一旦删除一个bit位可能会影响到其他bit位。==但是Counting Bloom对其进行优化,使其bit增加一个计数器,每次删除一个元素,其对应的bit位上的计数器-1。
布隆过滤器优缺点
优点
- 查询时间复杂度为O(k),k为哈希函数个数。
- 不需要存储元素本身,安全,节省空间。
- 查询的数据量大。
缺点
- 有误报率,不能保证一个数据是否真的存在。
- 不能获取元素本身的值。
- 一般不能删除元素。
#include<stdio.h>
#include<string.h>
class BitMap
{
public:
BitMap()
{
bitmap = NULL;
size = 0;
}
BitMap(int size) //按照大小构造map
{
bitmap = NULL;
bitmap = new char[size];
if (bitmap == NULL)
printf("error\n");
else
{
memset(bitmap, 0, size*sizeof(char));
this->size = size;
}
}
int initBitMap(int size)
{
bitmap = NULL;
bitmap = new char[size];
if (bitmap == NULL)
printf("init error\n");
else
{
memset(bitmap, 0, size*sizeof(char));
this->size = size;
return this->size;
}
}
//插入一个元素
int bitmapset(int index)
{
int addr = index / 8;
int addr_bit = index % 8;
unsigned char temp = 0x01 << addr_bit;
if (addr > (size + 1))
return 0;
else
{
bitmap[addr] |= temp;
return 1;
}
}
//判断该元素是否存在,存在返回1,不存在返回0
int bitmapgrt(int index)
{
int addr = index / 8;
int addr_bit = index % 8;
unsigned char temp = 0x01 << addr_bit;
if (addr > (size + 1))
return 0;
else
return (bitmap[addr] & temp) > 0 ? 1 : 0;
}
private:
char *bitmap;
size_t size;
};