C++哈希应用

最新推荐文章于 2024-09-02 09:58:06 发布

米阳羊

最新推荐文章于 2024-09-02 09:58:06 发布

阅读量1k

点赞数 22

文章标签：哈希算法 c++ 算法

本文链接：https://blog.csdn.net/m0_63949251/article/details/135536569

版权

C++哈希应用

位图

所谓位图，就是用每一位来存放某种状态，适用于海量数据，数据无重复的场景。通常是用来判断某个数据存不存在的。

位图的应用

快速查找某个数据是否在一个集合中
排序 + 去重
求两个集合的交集、并集等
操作系统中磁盘块标记

在这里插入图片描述

位图的实现

template<size_t N>
class bitset
{
public:
	bitset() //N是数据范围
	{
		_bits.resize(N / 8 + 1, 0);
	}
	void set(size_t x)
	{
		size_t i = x / 8;
		size_t j = x % 8;
		_bits[i] |= (1 << j);
	}
	void reset(size_t x)
	{
		size_t i = x / 8;
		size_t j = x % 8;
		_bits[i] &= ~(1 << j);
	}
	bool test(size_t x)
	{
		size_t i = x / 8;
		size_t j = x % 8;
		return _bits[i] & (1 << j);
	}
private:
	vector<char> _bits;
};

布隆过滤器

布隆过滤器提出

用哈希表存储用户记录，缺点：浪费空间
用位图存储用户记录，缺点：位图一般只能处理整形，如果内容编号是字符串，就无法处理了。
将哈希与位图结合，即布隆过滤器

布隆过滤器概念

布隆过滤器是由布隆（Burton Howard Bloom）在1970年提出的一种紧凑型的、比较巧妙的概率型数据结构，特点是高效地插入和查询，可以用来告诉你 “某样东西一定不存在或者可能存在”，它是用多个哈希函数，将一个数据映射到位图结构中。此种方式不仅可以提升查询效率，也可以节省大量的内存空间。

布隆过滤器的插入

在这里插入图片描述

通过多个哈希函数将一个字符串映射在多个地方

布隆过滤器的特点

当布隆过滤器说数据在时，是不可靠的
当布隆过滤器说数据不在时，是可靠的

布隆过滤器的实现

#pragma once
#include"bitset.h"
struct BKDRHash
{
	size_t operator()(const string& s)
	{
		size_t hash = 0;
		for (auto ch : s)
		{
			hash += ch;
			hash *= 31;
		}
		return hash;
	}
};
struct APHash
{
	size_t operator()(const string& s)
	{
		size_t hash = 0;
		for (long i = 0; i < s.size(); ++i)
		{
			size_t ch = s[i];
			if ((i & 1) == 0)
				hash ^= ((hash << 7) ^ ch ^ (hash >> 3));
			else
				hash ^= (~((hash << 11) ^ ch ^ (hash >> 5)));
		}
		return hash;
	}
};
struct DJBHash
{
	size_t operator()(const string& s)
	{
		size_t hash = 5381;
		for (auto ch : s)
			hash += (hash << 5) + ch;
		return hash;
	}
};
//N最多会插入key数据的个数
template<size_t N, class K, class Hash1 = BKDRHash, class Hash2 = APHash,class Hash3 = DJBHash>
class BloomFilter
{
public:
	void set(const K& key)
	{
		size_t len = N * _X;
		size_t hash1 = Hash1()(key) % len;
		_bs.set(hash1);
		size_t hash2 = Hash2()(key) % len;
		_bs.set(hash2);
		size_t hash3 = Hash3()(key) % len;
		_bs.set(hash3);
	}
	bool test(const K& key)
	{
		size_t len = N * _X;
		size_t hash1 = Hash1()(key) % len;
		if (!_bs.test(hash1))
			return false;
		size_t hash2 = Hash2()(key) % len;
		if (!_bs.test(hash2))
			return false;
		size_t hash3 = Hash3()(key) % len;
		if (!_bs.test(hash3))
			return false;
		return true;
	}
private:
	static const size_t _X = 4;
	bitset<N* _X> _bs; //bitset的实现在位图模块
};

海量数据处理

位图应用变形

给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件交集?

方案1:将其中一个文件1的整数映射到一个位图中，读取另外一个文件2中的整数，判断在在不在位图，在就是交集。消耗500M内存

方案2:将文件1的整数映射到位图1中，将文件2的整数映射到位图2中，然后将两个位图中的数按位与。与之后为1的位就是交集。消耗内存1G。

1个文件有100亿个int，1G内存，设计算法找到出现次数不超过2次的所有整数

用两个位表示一个数，分为出现0次00表示，出现1次的01表示―出现2次的10表示出现3次及3次以上的用11表示。

代码如下

//1个文件有100亿个int，1G内存，设计算法找到出现次数不超过2次的所有整数
template<size_t N>
class less_equal_twobitset
{
public:
	void set(size_t x)
	{
		if (_bs1.test(x) == false && _bs2.test(x) == false)
			_bs2.set(x);
		else if (_bs1.test(x) == false && _bs2.test(x) == true)
		{
			_bs1.set(x);
			_bs2.reset(x);
		}
		else if(_bs1.test(x) == true && _bs2.test(x) == false)
			_bs2.set(x);

	}
	void Print()
	{
		cout << "出现次数不超过2次的所有整数有：";
		for (size_t i = 0; i < N; ++i)
		{
			if ((_bs1.test(i) == false && _bs2.test(i) == true) || (_bs1.test(i) == true && _bs2.test(i) == false))
				cout << i << " ";
		}
		cout << endl;
	}
private:
	bitset<N> _bs1;
	bitset<N> _bs2;
};

布隆过滤器应用变形

给两个文件，分别有100亿个query，我们只有1G内存，如何找到两个文件交集?分别给出精确算泫和近似算法

分析:(query一般是sql查询语句或者网络请求的ur1等，一般是一个字符串)100亿个query占用多少空间呢?假设平均一个query 30-60byte，100亿个query大约占用300-600G

将文件A映射到布隆过滤器中，读取另外一个文件B，判断在不在布隆过滤器中。

哈希切割应用

前面我们给了布隆的方案，但是这个方案的缺陷也很明显就是交集中存在不是误判的值。那么现在我们来给一个准确的解决方案:

哈希切割：不再平均切分，哈希切分: i = hashstr(query) % 1000，i是多少query就进入第Ai/Bi的小文件中，文件A/文件B都别这样处理

A和B中相同的query一定进入编号相同的Ai和Bi小文件，所以下面只需要编号相同找交集就可以。

给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址？与上题条件相同，如何找到top K的IP？

先创建1000个小文件A0-A999，读取IP计算出i=hashstr(IP)%1000. i是多少，IP就进入对应编号的Ai小文件。这样相同IP一定进入了同一个小文件。map<string,int> countMap，读取Ai中的人IP统计出次数，一个读完了clear，再读另一个。使用一个pair<string,int> max记录出现次数最多的IP就可以求出。如果要找topK，那么就是用一个堆来搞定就可以。