【C++】位图、布隆过滤器

Crink1

已于 2024-05-07 22:39:10 修改

阅读量490

点赞数 16

文章标签： c++ 数据结构开发语言

于 2023-12-10 14:42:37 首次发布

本文链接：https://blog.csdn.net/qq_63989073/article/details/134908092

版权

1 位图

1.1位图的概念

先看例题：给40亿个不重复的无符号整数，没排过序。给一个无符号整数，如何快速判断一个数是否在这40亿个数中。

1.遍历，时间复杂度O（N）

2.排序+二分查找

3位图：数据是否在给定的整形数据中，结果是在或者不在，刚好是两种状态，那么可以使用一个二进制比特位来代表数据是否存在的信息，如果二进制比特位为1，代表存在，为0代表不存在。

位图的概念：

位图就是用一个比特位来表示一种状态，适用于海量数据，通常是数据不重复的情况下来判断数据在不在。

1.2 位图的实现

namespace crin
{
	template<size_t N>
	class bitset
	{
	public:
		bitset()
		{
			_bits.resize((N >> 5) + 1, 0);
		}

		void set(size_t x)
		{
			size_t i = x / 32;
			size_t j = x % 32;
			_bits[i] |= (1 << j);
		}

		void reset(size_t x)
		{
			size_t i = x / 32;
			size_t j = x % 32;
			_bits[i] &= ~(1 << j);
		}

		bool test(size_t x)
		{
			size_t i = x / 32;
			size_t j = x % 32;
			return _bits[i] & (1 << j);
		}

	private:
		vector<int> _bits;
	};

1.3 位图的应用

1. 快速查找某个数据是否在一个集合中

2. 排序 + 去重

3. 求两个集合的交集、并集等

4. 操作系统中磁盘块标记

2、布隆过滤器

布隆过滤器（Bloom Filter）是1970年由布隆提出的，它实际上是由一个很长的二进制向量和一系列随意映射函数组成。

它是一种基于概率的数据结构，主要用来判断某个元素是否在集合内，它具有运行速度快（时间效率），占用内存小的优点（空间效率），但是有一定的误识别率和删除困难的问题。它能够告诉你某个元素一定不在集合内或可能在集合内。

例如一个短视频客户端，每次给客户推送新视频的时候都会筛选出客户看过的视频并去重，那么要如何过滤掉重复的记录呢？

1. 用哈希表存储用户记录，缺点：浪费空间

2. 用位图存储用户记录，缺点：位图一般只能处理整形，如果内容编号是字符串，就无法处理了。

3. 将哈希与位图结合，即布隆过滤器

2.1布隆过滤器的插入

布隆过滤器可以让一个key映射到多个位置，这样可以减少误判的概率。

代码示例：

struct BKDRHash
{
	size_t operator()(const string& key)
	{
		
		size_t hash = 0;
		for (auto e : key)
		{
			hash *= 31;
			hash += e;
		}

		return hash;
	}
};

struct APHash
{
	size_t operator()(const string& key)
	{
		size_t hash = 0;
		for (size_t i = 0; i < key.size(); i++)
		{
			char ch = key[i];
			if ((i & 1) == 0)
			{
				hash ^= ((hash << 7) ^ ch ^ (hash >> 3));
			}
			else
			{
				hash ^= (~((hash << 11) ^ ch ^ (hash >> 5)));
			}
		}
		return hash;
	}
};

struct DJBHash
{
	size_t operator()(const string& key)
	{
		size_t hash = 5381;
		for (auto ch : key)
		{
			hash += (hash << 5) + ch;
		}
		return hash;
	}
};

template<size_t N, class K = string, class hashfun1 = BKDRHash, class hashfun2 = APHash, class hashfun3 = DJBHash>
class BloomFilter
{
public:
	void Set(const K& k)
	{
		int hash1 = hashfun1()(k) % N;
		int hash2 = hashfun2()(k) % N;
		int hash3 = hashfun3()(k) % N;
		_bit.set(hash1);
		_bit.set(hash2);
		_bit.set(hash3);
	}

	bool Test(const K& k)
	{
		int hash1 = hashfun1()(k) % N;
		int hash2 = hashfun2()(k) % N;
		int hash3 = hashfun3()(k) % N;

		if (_bit.test(hash1) == false)
		{
			return false;
		}
		if (_bit.test(hash2) == false)
		{
			return false;
		}

		if (_bit.test(hash3) == false)
		{
			return false;
		}
		return true;
	}
private:
	crin::bitset<N> _bit;
};