C++海量数据处理：位图和布隆过滤器

最新推荐文章于 2022-07-13 16:41:40 发布

又偷吃我氮泵_

最新推荐文章于 2022-07-13 16:41:40 发布

阅读量379

点赞数 1

分类专栏： C++ 文章标签：位图布隆过滤器海量数据处理

本文链接：https://blog.csdn.net/Outtch_/article/details/108415882

版权

C++ 专栏收录该内容

25 篇文章 0 订阅

订阅专栏

前言

有一道非常经典的题目：给40亿个不重复的无序的无符号整数，再给一个无符号整数，如何快速判断这个数是否在这40亿个数中。

关于这道题目我们首先想到的解法就是排序二分查找，或者借助关联式容器进行求解，但是40亿个数据的数据量是非常巨大的（16G），没有办法放入内存中，所以在面对这种海量数据处理的时候，我们今天来学习位图和布隆过滤器的相关知识，用来解决海量数据处理的问题。

一：位图

位图其实就是哈希结构的变形，同样通过映射来处理数据，采用直接定址法存储数据，只不过位图本身并不存储数据，而是通过存储一个比特位来标记这个数据是否存在，1代表存在，0代表不存在。

位图通常情况下用在海量数据的处理上，且数据不重复的情景下判断某个数据是否存在。

代码实现：

class bitmap{
public:
	bitmap(size_t N){
		_bits.resize(N / 32 + 1, 0); // 多开一个整型32bit
		_num = 0;
	}

	// 标记
	void set(size_t x){
		// 寻找x的标记存放在第几个整型
		size_t index = x / 32;
		// 寻找x的标记在这个整型的第几个位
		size_t pos = x % 32;

		//左移是向高位移动
		_bits[index] |= (1 << pos);
	}

	void reset(size_t x){
		// 寻找x的标记存放在第几个整型
		size_t index = x / 32;
		// 寻找x的标记在这个整型的第几个位
		size_t pos = x % 32;

		// 第pos个位置置为0
		_bits[index] &= ~(1 << pos);
	}

	// 判断x的映射位是否为1
	bool test(size_t x){
		// 寻找x的标记存放在第几个整型
		size_t index = x / 32;
		// 寻找x的标记在这个整型的第几个位
		size_t pos = x % 32;

		return _bits[index] & (1 << pos);
	}

private:
	std::vector<int> _bits;
	size_t _num; // 存储的数据个数
};

位图的应用：

快速查找某个数据是否在这个集合中
排序+去重
求两个集合的交集和并集
操作系统中的磁盘块标记

位图的优缺点分析：

节省空间，效率高
只能处理整型并且不能处理哈希冲突

二：布隆过滤器

布隆过滤器是由布隆提出的一种概率型的数据结构，布隆过滤器实则就是位图与哈希表的结合，特点是高效地插入和查询，它是用多个哈希函数，将一个数据映射到位图结构中。这种方式不仅可以提升查询效率，还可以节省大量的内存空间。

代码实现：

template<class K = std::string, class Hash1 = HashStr1, class Hash2 = HashStr2, class Hash3 = HashStr3>
class bloomfilter{
public:
	bloomfilter(size_t num){
		_bs(-1);
	}
	void set(const K& key){
		// 通过多个哈希函数将数据映射到位图中
		size_t index1 = Hash1()(key);
		size_t index2 = Hash2()(key);
		size_t index3 = Hash3()(key);

		_bs.set(index1);
		_bs.set(index2);
		_bs.set(index3);
	}

	// 存在误删的问题
	void reset(const K& key){
		// 不支持删除
	}

	bool test(const K& key){
		// 判断在是不准确的，可能存在误判，判断不在是准确的。
		size_t index1 = Hash1()(key);
		if (_bs.test(index1) == false)
			return false;
		size_t index2 = Hash2()(key);
		if (_bs.test(index2) == false)
			return false;
		size_t index3 = Hash3()(key);
		if (_bs.test(index3) == false)
			return false;

		return true;
	}
private:
	// 底层其实是一个位图
	bitmap _bs;
	size_t len;
};