位图&&布隆过滤器

最新推荐文章于 2024-08-14 00:14:30 发布

wanWan呐

最新推荐文章于 2024-08-14 00:14:30 发布

阅读量284

点赞数

分类专栏： C++Language

本文链接：https://blog.csdn.net/Adenson/article/details/107068819

版权

C++Language 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

位图

位图其实也就是哈希的思想，就是用每一位来存放某种状态，通常是用来判断某个数据存不存在的。数据是否在给定的整形数据中，结果是在或者不在，刚好是两种状态，那么可以使用一个二进制比特位来代表数据是否存在的信息，如果二进制比特位为1，代表存在，为0代表不存在。

位图的模拟实现

class BitSet
{
public:
	BitSet(const size_t& bitCount)
		:_bitCount(bitCount)
	{
		_bit.resize((bitCount >> 5) + 1, 0);
	}

	void set(const size_t& num)
	{
		//index表示在哪个字节；pos表示在字节的第几位
		size_t index = num >> 5;
		size_t pos = num % 32;
		_bit[index] |= (1 << pos);
	}

	void reset(const size_t& num)
	{
		size_t index = num >> 5;
		size_t pos = num % 32;
		_bit[index] &= ~(1 << pos);
	}

	bool test(const size_t& num)
	{
		size_t index = num >> 5;
		size_t pos = num % 32;
		return _bit[index] & (1 << pos);
	}
private:
	vector<int> _bit;
	size_t _bitCount;
};

位图是根据数据的范围来开位的，不是根据数据个数来开位的。

位图练习题目

1、给40亿个不重复的无符号整数，没排过序。给一个无符号整数，如何快速判断一个数是否在这40亿个数中。

题目分析：40亿个整数大约是16G
在这里插入图片描述
上图两种方法都不行，都面临着O（N）的空间复杂度，主要是因为内存不够，因为需要将16G的数据加载到内存中。所以采用位图来解决，直接开2^32个位==500M。通过set将所有数据映射的位置1，然后通过test来检测某一个数据是否存在。

2、给定100亿个整数，设计算法找到只出现一次的整数？

题目分析:位图只能判断在不在，不能统计次数，为了解决问题，该如何处理？

方法一：将位图进行改进，可以把每个值映射两个位，把整数出现的次数分为三种状态（00：出现0次、01:出现一次、10：出现两次及以上）
方法二：用两个位图

3、给定100亿个整数，设计算法找到只出现一次的整数？
在这里插入图片描述
4、个文件有100亿个int，1G内存，设计算法找到出现次数不超过2次的所有整数

该题同上述第三题类似。set完毕之后进行test，如果是 00或者10说明该整数出现次数不超过2次。

布隆过滤器

布隆过滤器就是哈希与位图的一个结合，它是通过多个哈希函数将数据映射到位图结构中，即一个数据会映射到位图当中的多个位置。

布隆过滤器的插入
布隆过滤器的查找

布隆过滤器的思想是将一个元素用多个哈希函数映射到一个位图中，因此被映射到的位置的比特位一定为1。所以可以按照以下方式进行查找：分别计算每个哈希值对应的比特位置存储的是否为零，只要有一个为零，代表该元素一定不在哈希表中，否则可能在哈希表中。
注意：布隆过滤器判断出某个元素不存在时，该元素一定不存在，如果该元素存在时，该元素可能存在，因为有些哈希函数存在一定的误判。比如：在布隆过滤器中查找"alibaba"时，假设3个哈希函数计算的哈希值为：1、3、7，刚好和其他元素的比特位重叠，此时布隆过滤器告诉该元素存在，但实该元素是不存在的。（所以说不在一定是准确的，在可能是准确的）。
布隆过滤器的删除

通常来说，布隆过滤器不能直接支持删除工作，因为在删除一个元素时，可能会影响其他元素。一种支持删除的方法：将布隆过滤器中的每个比特位扩展成一个小的计数器（可以扩展成一个char 或 int），set元素时给k个计数器(k个哈希函数计算出的哈希地址)加一，reset元素时，给k个计数器减一，通过多占用几倍存储空间的代价来增加删除操作。

布隆过滤器练习题目

1、给两个文件，分别有100亿个query，我们只有1G内存，如何找到两个文件交集？分别给出精确算法和近似算法。

近似算法

将其中一个A文件的所有query放到一个布隆过滤器当中，然后再依次读出另外一个B文件当中的query判断在不在布隆过滤器当中，如果在的话就是交集。这样做带来的问题：会存在一定的误判率，可能B文件query x并不存在A文件中,但是A中其他的query可能映射到x 的位置导致将query x 误判成为交集。
精确算法（采用哈希切割）

2、给一个超过100G大小的log ﬁle, log中存着IP地址, 设计算法找到出现次数最多的IP地址？与上题条件相同，如何找到top K的IP？（采用哈希切割）

wanWan呐

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
位图&&布隆过滤器

位图位图其实也就是哈希的思想，就是用每一位来存放某种状态，通常是用来判断某个数据存不存在的。数据是否在给定的整形数据中，结果是在或者不在，刚好是两种状态，那么可以使用一个二进制比特位来代表数据是否存在的信息，如果二进制比特位为1，代表存在，为0代表不存在。位图的模拟实现class BitSet{public: BitSet(const size_t& bitCount) :_bitCount(bitCount) { _bit.resize((bitCount >>
复制链接

扫一扫

专栏目录