布隆过滤器和位图

最新推荐文章于 2024-04-11 12:58:27 发布

cleveryuoyuo

最新推荐文章于 2024-04-11 12:58:27 发布

阅读量324

点赞数

分类专栏： cpp 文章标签：哈希算法算法散列表

本文链接：https://blog.csdn.net/cleveryuoyuo/article/details/122591159

版权

cpp 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

hash切割

*两个文件分别给定100亿个数据，如何准确判断文件交集？

假设一个数据平均20byte，则一个文件大概200G。
将文件1的文件，进行hash切分，切分成400个小文件，则一个文件也就512M,通过hash切分，则同类的都在一个小文件中，文件2也用同样的hash切分，这样分别对小文件进行对比，就可以找到交集。*

bool过滤器：

布隆过滤器建立多个hash映射，映射多个位置表示为一个数据,多用来处理字符串
布隆过滤器不支持删除，因为会有hash转化不同的值在同一个位置。
布隆过滤器可以确定那个元素不在表中，但是不能确定那个元素在表中，因为通过hash映射的结果可能会相同

这里hash1-2-3分别对应三个hash映射，将字符串映射成数字。

template <size_t N,class K = std::string,class Hash1=HashBKDR,class Hash2=HashAP,class Hash3=HashDJB>

class bloom
{
public:

	void Set(const K& s)
	{
		//通过三个hash得到三个映射位置 位置不能超过hash表的容量
		size_t n1 = Hash1()(s) % N;
		size_t n2 = Hash2()(s) % N;
		size_t n3 = Hash3()(s) % N;

		_bitset.Set(n1);
		_bitset.Set(n2);
		_bitset.Set(n3);
	}
	bool Test(const K& s)
	{
		size_t n1 = Hash1()(s) % N;
		if (_bitset.Test(n1) == false)
		{
			return false;
		}
		size_t n2 = Hash2()(s) % N;
		if (_bitset.Test(n2) == false)
		{
			return false;
		}
		size_t n3 = Hash3()(s) % N;
		if (_bitset.Test(n3) == false)
		{
			return false;
		}

		//判断存在不准确，因为可能有不在的元素映射到同一个位置
		return true;
	}
private:
	ghc::BitSet<N> _bitset;
};