位图&&布隆过滤器

位图

位图其实也就是哈希的思想,就是用每一位来存放某种状态,通常是用来判断某个数据存不存在的。数据是否在给定的整形数据中,结果是在或者不在,刚好是两种状态,那么可以使用一个二进制比 特位来代表数据是否存在的信息,如果二进制比特位为1,代表存在,为0代表不存在。

位图的模拟实现
class BitSet
{
public:
	BitSet(const size_t& bitCount)
		:_bitCount(bitCount)
	{
		_bit.resize((bitCount >> 5) + 1, 0);
	}

	void set(const size_t& num)
	{
		//index表示在哪个字节;pos表示在字节的第几位
		size_t index = num >> 5;
		size_t pos = num % 32;
		_bit[index] |= (1 << pos);
	}

	void reset(const size_t& num)
	{
		size_t index = num >> 5;
		size_t pos = num % 32;
		_bit[index] &= ~(1 << pos);
	}

	bool test(const size_t& num)
	{
		size_t index = num >> 5;
		size_t pos = num % 32;
		return _bit[index] & (1 << pos);
	}
private:
	vector<int> _bit;
	size_t _bitCount;
};

位图是根据数据的范围来开位的,不是根据数据个数来开位的。

位图练习题目

1、给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数 中。

题目分析:40亿个整数大约是16G
在这里插入图片描述
上图两种方法都不行,都面临着O(N)的空间复杂度,主要是因为内存不够,因为需要将16G的数据加载到内存中。所以采用位图来解决,直接开2^32个位==500M。通过set将所有数据映射的位置1,然后通过test来检测某一个数据是否存在。

2、给定100亿个整数,设计算法找到只出现一次的整数?

题目分析:位图只能判断在不在,不能统计次数,为了解决问题,该如何处理?

  • 方法一:将位图进行改进,可以把每个值映射两个位,把整数出现的次数分为三种状态(00:出现0次、01:出现一次、10:出现两次及以上)
  • 方法二:用两个位图
    在这里插入图片描述

3、给定100亿个整数,设计算法找到只出现一次的整数?
在这里插入图片描述
4、个文件有100亿个int,1G内存,设计算法找到出现次数不超过2次的所有整数

该题同上述第三题类似。set完毕之后进行test,如果是 00或者10说明该整数出现次数不超过2次。

布隆过滤器

布隆过滤器就是哈希与位图的一个结合,它是通过多个哈希函数将数据映射到位图结构中,即一个数据会映射到位图当中的多个位置。

  • 布隆过滤器的插入 在这里插入图片描述

  • 布隆过滤器的查找

    布隆过滤器的思想是将一个元素用多个哈希函数映射到一个位图中,因此被映射到的位置的比特位一定为1。 所以可以按照以下方式进行查找:分别计算每个哈希值对应的比特位置存储的是否为零,只要有一个为零, 代表该元素一定不在哈希表中,否则可能在哈希表中。
    注意布隆过滤器判断出某个元素不存在时,该元素一定不存在,如果该元素存在时,该元素可能存在,因 为有些哈希函数存在一定的误判。比如:在布隆过滤器中查找"alibaba"时,假设3个哈希函数计算的哈希值为:1、3、7,刚好和其他元素的比 特位重叠,此时布隆过滤器告诉该元素存在,但实该元素是不存在的。(所以说不在一定是准确的,在可能是准确的)。

  • 布隆过滤器的删除

    通常来说,布隆过滤器不能直接支持删除工作,因为在删除一个元素时,可能会影响其他元素。一种支持删除的方法:将布隆过滤器中的每个比特位扩展成一个小的计数器(可以扩展成一个char 或 int),set元素时给k个计数器(k个哈希函数计算出的哈希地址)加一,reset元素时,给k个计数器减一,通过多占用几倍存储空间的代价来增加删除操作。

布隆过滤器练习题目

1、给两个文件,分别有100亿个query,我们只有1G内存,如何找到两个文件交集?分别给出精确算法和 近似算法 。

  • 近似算法

    将其中一个A文件的所有query放到一个布隆过滤器当中,然后再依次读出另外一个B文件当中的query判断在不在布隆过滤器当中,如果在的话就是交集。这样做带来的问题:会存在一定的误判率,可能B文件query x并不存在A文件中,但是A中其他的query可能映射到x 的位置导致将query x 误判成为交集。

  • 精确算法(采用哈希切割)
    在这里插入图片描述
    2、给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址? 与上题条件相同, 如何找到top K的IP? (采用哈希切割)
    在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值