哈希(解决哈希冲突,封装map/set,哈希的应用{位图/布隆过滤器})

一.哈希(按某种规律将某个值存储到固定位置)

除留余数法 key % len
直接映射一定是有哈希碰撞/哈希冲突

如何解决哈希冲突:

①闭散列:也叫开放定址法,如果发送哈希冲突了,就去找下一个空位置

针对的是值相对连续的做法,如果说值特别的散,那么效率会很低
方法一:线性探测,从发送冲突的位置开始,依次向后探测,直到找到下一个空位置为止
(图书馆抢位置,别人如果枪了我的,我就去抢别人的,强盗逻辑)

构建哈希表:
一个vector,一个记录有效个数的变量n
如果vector的最后一个数据冲突则返回到vector的第一个位置继续找空位
删除元素后查找遇到空时回暂停,如何解决这种问题呢?加标记,每个数据给一个枚举状态值,这样删数据只需要将其状态值修改
查找时遇到空EMPTY就停止了,遇到删除DELETE还要继续找

负载因子定义 α = 填入表中的元素个数 / 散列表的长度
α越大,冲突的概率越大,效率低,但是浪费少
α越小,冲突的概率越小,效率高,但是浪费严重

接口:
【 插入 】算插入位置,膜vector的size而不是capacity ,扩容的写法(α>0.7)
扩容时:直接new一个新的table,将原table中元素插入其中,交换指针即可,复用之前insert
重复插入的处理(通过Find接口)
插入的数据不一定是整数,可能是string…用仿函数的方式来解决,取模的地方就用仿函数处理一下
各种字符串Hash函数-博客园

注意:
vector的reserve以后为什么不能cin>>v[i],因为方括号自带检查,reserve只是开空间并未初始化,所以要用resize(默认初始化为0)

方法二:二次探测
引入二次探测背景:连续位置的冲突值比较多的话,引发踩踏洪水效应,按照方法一找邻居的话比较容易冲突

#pragma once
#include<vector>
#include<iostream>
#include<cstdio>

using namespace std;


template<class K>
struct Hash
{
   
	size_t operator()(const K& key)
	{
   
		return key;
	}
};

//特化版本
//传string要将它转化成整数,这边先使用BKDR的方法
template<>
struct Hash <string>
{
   
	size_t operator()(const string& s)
	{
   
		//BKDR
		size_t value = 0;
		for (auto ch : s)
		{
   
			value *= 31;
			value += ch;
		}
		return value;
	}
};

//闭散列的方式
namespace CloseHash {
   
	enum Status {
   
		EXIST,
		EMPTY,
		DELETE
	};

	template<class K,class V>
	struct HashData
	{
   
		//保存一对键值对
		pair<K, V> _kv;
		//保存此数据的状态
		Status _status = EMPTY;
	};

	template<class K, class V,class HashFunc = Hash<K>>
	class HashTable
	{
   
	public:
		bool Erase(const K& key)
		{
   
			HashData<K, V>* res = Find(key);
			if (key)
			{
   
				//找到的情况就可以进行删除
				//只需要将状态置Delete即可,有效个数减1
				--_n;
				res->_status = DELETE;
				return true;
			}
			else
			{
   
				//没找到就返回false
				return false;
			}

		}


		HashData<K, V>* Find(const K& k)
		{
   
			if (_tables.size() == 0)
				return nullptr;

			HashFunc hf;
			//算起始点,往后线性探测/二次探测查找待插入位置
			size_t start = hf(k) % _tables.size();
			size_t index = start;
			size_t i = 0;
			//做的是一个连续的查找,不能中间是断的
			//也就是说遇到空就会停止
			while (_tables[index]._status != EMPTY)
			{
   
				if (_tables[index]._kv.first == k && _tables[index]._status == EXIST)
				{
   
					return &_tables[index];
				}
				++i;
				index = start + i;
				//防止越界
				index %= _tables.size();
			}
			return nullptr;
		}


		//Insert是插入一对键值对
		bool Insert(const pair<K,V>& kv)
		{
   
			//如果本身就有这个元素的话,就避免重复插入
			HashData<K, V>* res = Find(kv.first);
			if (res)
			{
   
				return false;
			}

			//负载因子到0.7就扩容
			//负载因子越小,冲突的概率就越低,效率就越高,但是空间浪费多
			//负载因子越大,冲突的概率就越高,效率就越低,但是空间浪费少

			//没有元素时扩容,负载因子到时扩容
			if (_tables.size() == 0 || _n * 10 / _tables.size() >= 7)
			{
   
				size_t newSize = _tables.size()== 0 ? 10 : _tables.size() * 2;

				HashTable<K, V, HashFunc> newHT;
				newHT._tables.resize(newSize);
				for (size_t i = 0; i < _tables.size(); i++)
				{
   
					newHT.Insert(_tables[i]._kv);
				}
				_tables.swap(newHT._tables);
			}

			HashFunc hf;
			size_t start = hf(kv.first) % _tables.size();
			size_t i = 0;
			size_t index = start;
			while (_tables[index]._status == EXIST)
			{
   
				++i;
				index = start + i;
				//防止下标出界
				index %= _tables.size();
			}
			//找到位置以后
			_tables[index]._kv = kv;
			_tables[index]._status = EXIST;
			++_n;

			return true;
		}
	private:
		//用一个vector来存储Hash元素,n表示tables中有效元素的个数
		vector<HashData<K, V>> _tables;
		size_t _n = 0;
	};

	void HashTableTest()
	{
   
		HashTable<int, int> ht;
		int a[] = {
    2, 12, 22, 32, 42, 52, 62 };
		for (auto e : a)
		{
   
			ht.Insert(make_pair(e, e));
		}
		ht.Insert(make_pair(72, 72));
		ht.Insert(make_pair(32, 32));
		ht.Insert(make_pair(-1, -1));
		ht.Insert(make_pair(-999, -999));

		Hash<int> hs;
		cout << hs(9) << endl;
		cout << hs(-9) << endl;

		cout << ht.Find(12) << endl;
		ht.Erase(12);
		cout << ht.Find(12) << endl;
	}

	void HashTableTest2()
	{
   
		HashTable<string, string> ht;
		ht.Insert(make_pair("sort", "排序"));
		ht.Insert(make_pair("string", "字符串"));
	}
}

②开散列 – 拉链法/哈希桶

是闭散列/开放定址法的优化:闭散列不同位置冲突数据会互相影响,相互位置的冲突会争抢位置,互相影响效率
开散列相邻位置冲突,不会再争抢位置,不会互相影响

控制负载因子 – 负载因子到了就扩容
极端场景防止一个桶冲突太多,链表太长:当一个桶长度超过一定长以后,转换为红黑树(Java中链表的长度超过了8会变成红黑树)
例子:
表长度100
极端场景:
1 .存了50个值,40个值是冲突的,挂再一个桶中
2 .存储了10000个值,平均每个桶长度100,阶段场景有些桶可能有上千个值

【插入】
扩容:这种方法中的扩容最好不要复用自己的Insert,因为会new新的节点,这样是没有必要的,可以将原表中的节点一个个链下来,
注意是一个个,而不是一个桶(因为桶中的元素映射到了新表中可能对应新的位置)
table[i]的节点都被拿走了,最好要把它置空一下
newtable是我们的table想要的,把他们的指针再交换一下

【删除】
在这里插入图片描述

namespace LinkHash
{
   
	template<class K,class V>
	struct HashNode
	{
   
		pair<K, V> _kv;
		HashNode<K, V>* _next;
		HashNode(const pair<K,V>& kv)
			:_kv(kv),
			_next(nullptr)
		{
   }
	};

	template<class K,class V,class HashFunc = Hash<K>>
	class HashTable
	{
   
		typedef HashNode<K, V> Node;
	public:
		bool Erase(const K& key)
		{
   
			//表空就不用删除
			if (_tables.empty())
			{
   
				return false;
			}

			HashFunc hf;
			size_t index = hf(key) % _tables.size();
			Node* prev = nullptr;
			Node* cur = _tables[index];
			while (cur)
			{
   
				if (cur->_kv.first == key)
				{
   
					if (prev == nullptr)
					{
   
						//头删
						_tables[index] = cur->_next;
					}
					else
					{
   
						//中间删除
						prev->_next = cur->_next;
					}
					--_n;
					
					delete cur;
					return true;
				}
				else
				{
   
					prev = cur;
					cur = cur-&g
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
位图Bitmap)和布隆过滤器(Bloom Filter)都是常用的数据结构,用于处理大规模数据集合,但它们有着不同的应用场景和用途。 位图是一种压缩数据结构,用于快速地判断某个元素是否在集合中。位图的实现方式是将每个元素映射到一个二进制位上,如果该元素存在于集合中,则将对应的二进制位标记为1,否则标记为0。这样,当需要查询某个元素是否在集合中时,只需要查找对应的二进制位即可。由于位图的实现方式非常简单,因此可以快速地进行插入和查询操作,而且占用的空间也非常小,适合处理大规模数据集合。 布隆过滤器也是一种快速判断元素是否存在于集合中的数据结构,但其实现方式与位图略有不同。布隆过滤器使用一组哈希函数将元素映射到多个二进制位上,并将对应的二进制位标记为1。当查询某个元素是否在集合中时,将该元素进行哈希映射,并查找对应的二进制位,如果所有的二进制位都被标记为1,则说明该元素可能存在于集合中,否则可以确定该元素不存在于集合中。布隆过滤器的优点是可以快速地判断一个元素不存在于集合中,而且占用的空间也比较小,但存在误判率的问题。 因此,位图布隆过滤器虽然都可以用来处理大规模数据集合,但它们的实现方式和应用场景有所不同。位图适用于需要快速地判断某个元素是否在集合中的场景,而布隆过滤器适用于需要快速地判断一个元素不存在于集合中的场景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值