C++ 哈希表及unordered_set + unordered_map容器

冰果滴

已于 2023-09-27 14:48:38 修改

阅读量2.9k

点赞数 4

分类专栏： C++学习-笔记文章标签：散列表 c++ 哈希数据结构 STL

于 2022-09-14 13:45:05 首次发布

本文链接：https://blog.csdn.net/qq_60750110/article/details/126746419

版权

C++学习-笔记专栏收录该内容

27 篇文章 4 订阅

订阅专栏

一.unordered_set和unordered_map的使用

三.unordered_set及unordered_map模拟实现

前言：unordered_set和unordered_map是C++11中新增加的两个关联式容器，使用方式与set和map基本相同，但是unordered_set和unordered_map的底层是哈希表，而set和map的底层是红黑树。并且unordered_set不能排序；unordered_set和unordered_map是单向迭代器；效率要高一下，时间复杂度为O(1)。

一.unordered_set和unordered_map的使用

这里unordered_set和unordered_map的使用与set和map基本相同，因此会了set和map，这两个也就会了。

map+set：C++ 关联式容器map+set_糖果雨滴a的博客-CSDN博客

二.哈希结构

1.概念

在之前的顺序结构以及平衡树中，元素关键码与其存储位置之间没有对应的关系，因此在查找一个元素时，必须要经过关键码的多次比较。顺序查找时间复杂度为O(N)，平衡树中为树的高度，即O(logN)，搜索的效率取决于搜索过程中元素的比较次数。

概念：可以不经过任何比较，一次直接从表中得到要搜索的元素。可以使元素的存储位置与它的关键码之间能够建立一一映射的关系，在查找时可以很快找到该元素。

（1）插入元素

根据待插入元素的关键码，以此函数计算出该元素的存储位置并按此位置进行存放。

（2）搜索元素

对元素的关键码进行同样的计算，把求得的函数值当做元素的存储位置，在结构中按此位置取元素比较，若关键码相等，则搜索成功。

该方式即为哈希（散列）方法，哈希方法中使用的转换函数称为哈希（散列）函数，构造出来的结构称为哈希表（散列表）。

用该方法进行搜索不必进行多次关键码的比较，因此搜索的速度比较快。

2.哈希函数

（1）哈希函数设计原则

① 哈希函数的定义域必须包括需要存储的全部关键码，而如果散列表允许有m个地址时，其值域必须在0到m-1之间

② 哈希函数计算出来的地址能均匀分布在整个空间中。

③ 哈希函数应该比较简单。

（2）常见哈希函数

① 直接定址法（常用）

取关键字的某个线性函数为散列地址：Hash(Key) = A * Key + B

优点：简单、均匀

缺点：需要事先知道关键字的分布情况

使用场景：适合查找比较小且连续的情况

② 除留余数法（常用）

设散列表中允许的地址数为m，取一个不大于m，但最接近或者等于m的质数p作为除数，按照哈希函数：Hash(key) = key% p(p<=m),将关键码转换成哈希地址。

③ 平方取中法

假设关键字为1234，对它平方就是1522756，抽取中间的3位227作为哈希地址；再比如关键字为4321，对它平方就是18671041，抽取中间的3位671(或710)作为哈希地址。

平方取中法比较适合：不知道关键字的分布，而位数又不是很大的情况。

④ 折叠法

折叠法是将关键字从左到右分割成位数相等的几部分(最后一部分位数可以短些)，然后将这几部分叠加求和，并按散列表表长，取后几位作为散列地址。

折叠法适合事先不需要知道关键字的分布，适合关键字位数比较多的情况

⑤ 随机数法

选择一个随机函数，取关键字的随机函数值为它的哈希地址，即Hash(key) = random(key),其中random为随机数函数。

随机数法通常应用于关键字长度不等时采用此法。

⑥ 数学分析法

设有n个d位数，每一位可能有r种不同的符号，这r种不同的符号在各位上出现的频率不一定相同，可能在某些位上分布比较均匀，每种符号出现的机会均等，在某些位上分布不均匀只有某几种符号经常出现。可根据散列表的大小，选择其中各种符号分布均匀的若干位作为散列地址。

数字分析法通常适合处理关键字位数比较大的情况，如果事先知道关键字的分布且关键字的若干位分布较均匀的情况。

3.哈希冲突

对于两个数据元素的关键字 ki 和 kj (i != j)，有 ki != kj ，但有：Hash(ki) == Hash(kj)，即：不同关键字通过相同哈希计数计算出相同的哈希地址，该种现象称为哈希冲突或哈希碰撞。

把具有不同关键码而具有相同哈希地址的数据元素称为“同义词”。

引起哈希冲突的一个原因可能是：哈希函数设计不够合理。

4.哈希冲突解决

解决哈希冲突的两种常见方法是：闭散列和开散列。

（1）闭散列

闭散列也叫开放定址法，当发生哈希冲突时，如果哈希表未被装满，说明在哈希表中必然还有空位置，那么可以把key存到冲突位置中的“下一个”空位置中去。

那么如何去寻找下一个空位置呢？

① 线性探测

从发生冲突的位置开始，依次向后探测，直到寻找到下一个空位置为止。

a. 插入

通过哈希函数获取待插入元素在哈希表中的位置。

如果该位置中没有元素则直接插入新元素，如果该位置中有元素发生哈希冲突，使用线性探测找到下一个空位置，插入新元素。

既然有插入，那么就有扩容，那哈希表什么时候进行扩容呢？如何扩容呢？

扩容就由负载因子（载荷因子）来决定，负载因子：表中的元素 / 散列表的长度。

负载因子越大，表明表中的元素越低，产生冲突的可能性就越大；反之，负载因子越小，表明表中的元素越少，产生冲突的可能性就越小。

对于开放定址法，负载因子应控制在0.7-0.8以下。超过 0.8.会导致CPU缓存不命中。Java中限制了负载因子为0.75.

插入函数的具体实现：

先通过调用查找函数，判断当前key是否存在，若存在就不再插入；不存在就要先判断负载因子是否到0.7及以上，到了就扩容，在扩容以后要重新映射（通过创建一个有扩容后空间的新表，然后通过遍历旧表，将其插入新表中，最后交换新旧表，这样原本的旧表就变成了新表）。

扩容判断结束后，要准备找位置插入，首先因为不清楚要插入的类型，所以这里使用了仿函数，包括了int类型和string类型，并且为了在调用Insert时不需要传仿函数的参，就给仿函数写一个缺省，并且要把string类型的仿函数实现为特化版本。

然后从该数应该映射的位置开始查找可以插入的位置（即state不为EXITS就可以插入），找到位置之后，插入，并更新插入的数据个数n。

b. 删除

采用闭散列处理哈希冲突时，不能随便物理的删除哈希表中已有的元素，若直接删除元素会影响其它元素的搜索。因此线性探测采用标记的伪删除法来删除一个元素。

删除函数的具体实现：

通过调用Find函数，查找是否存在，若存在就将该位置state标记为DELETE。

c.查找

查找函数的具体实现：

从要找着的数据本应映射的位置开始查找，如果没到标记为EMPTY的数据就一直去查找，直到找到了标记不为DELETE（即为EXITS）的数据并且key值相同，就说明找到了该值；若找了key值相同却为DELETE的，说明之前被删除了，而如果一直走到了EMPTY都没有找到，就一定是没有该数据了。

实现：

#pragma once

namespace CloseHash
{
	enum State
	{
		EMPTY,
		EXITS,
		DELETE
	};

	template <class K, class V>
	struct HashData
	{
		pair<K, V> _kv;
		State _state = EMPTY;
	};

	template <class K>
	struct DefaultHash
	{
		size_t operator()(const K& key)
		{
			return (size_t)key;
		}
	};

	template<>
	struct DefaultHash<string>
	{
		size_t operator()(const string& key)
		{
			// BKDR
			size_t hash = 0;
			for (auto ch : key)
			{
				hash = hash * 131 + ch;
			}

			return hash;
		}
	};

	template <class K, class V, class HashFunc = DefaultHash<K>>
	class HashTable
	{
		typedef HashData<K, V> Data;
	public:
		bool Insert(const pair<K, V>& kv)
		{
			if (Find(kv.first))
			{
				return false;
			}

			// 负载因子到0.7及以上，就扩容
			if (_tables.size() == 0 || _n * 10 / _tables.size() >= 7)
			{
				size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
				// 扩容以后，需要重新映射
				HashTable<K, V, HashFunc> newHT;
				newHT._tables.resize(newSize);
				// 遍历旧表，插入newHT
				for (auto& e : _tables)
				{
					if (e._state == EXITS)
					{
						newHT.Insert(e._kv);
					}
				}
				newHT._tables.swap(_tables);
			}

			HashFunc hf;
			size_t starti = hf(kv.first);
			starti %= _tables.size();

			size_t hashi = starti;
			size_t i = 1;
			// 线性探测/二次探测
			while (_tables[hashi]._state == EXITS)
			{
				hashi == starti + i;
				++i;
				hashi %= _tables.size();
			}

			_tables[hashi]._kv = kv;
			_tables[hashi]._state = EXITS;
			_n++;

			return true;
		}

		Data* Find(const K& key)
		{
			if (_tables.size() == 0)
			{
				return nullptr;
			}

			HashFunc hf;
			size_t starti = hf(key);
			starti %= _tables.size();

			size_t hashi = starti;
			size_t i = 1;
			while (_tables[hashi]._state != EMPTY)
			{
				if (_tables[hashi]._state != DELETE && _tables[hashi]._kv.first == key)
				{

					return &_tables[hashi];
				}

				hashi = starti + i;
				++i;
				hashi %= _tables.size();
			}

			return nullptr;
		}

		bool Erase(const K& key)
		{
			Data* ret = Find(key);
			if (ret)
			{
				ret->_state = DELETE;
				--_n;
				return true;
			}
			else
			{
				return false;
			}
		}

	private:
		vector<Data> _tables;
		size_t _n = 0; // 存储关键字的个数
	};
}

线性探测优点：实现简单

线性探测缺点：一旦发生哈希冲突，所有的冲突连在一起，容易产生数据“堆积”，即：不同关键码占据了可利用的空位置，使得寻找某关键码的位置需要许多次比较，导致搜索效率降低。

② 二次探测

因为线性探测的缺陷是产生冲突的数据会堆积在一块，就导致找空位置的方式就是挨着往后逐个去找，因此二次探测为了避免该问题，就对其进行了优化：找下一个位置的方法变为Hi = (H0 + i^2) % m，i为1，2，3......。即不是依次往后走了，而是变成了i^2，并且这个i会依次增大。

二次探测实现：

二次探测的实现与线性探测基本相同，只是在插入上有一些区别，这里就不实现了。

虽然二次探测是线性探测的优化，不过，二次探测在本质上并没有解决闭散列去占别人位置的问题，因此一样容易造成哈希冲突。二次探测只不过是比线性探测能少一些哈希冲突。

（2）开散列

开散列法又叫链地址法（开链法），首先对关键码集合用散列函数计算散列地址，具有相同地址的关键码归于同一子集合，每一个子集合称为一个桶，各个桶中的元素通过一个单链表链接起来，各链表的头结点存储在哈希表中。

因此，开散列中每个桶中放的都是在闭散列中会发生哈希冲突的元素。

a.插入

插入函数的具体实现：

先通过调用查找函数，判断当前key是否存在，若存在就不再插入；不存在就要先判断负载因子是否到1及以上，到了就扩容，在扩容以后要重新映射（通过创建一个有扩容后空间的新表，然后通过遍历旧表，将旧表中桶的元素插入新表中，这样原本的旧表就不需要清理【已经全部转移到了新表中】，最后交换新旧表，旧表就变成了新表）。

然后从先得到该数应该映射的位置并进行头插，并更新插入的数据个数n。

b.删除

删除函数的具体实现：

因为是在一个数组上的每个元素下有一个链表，因此要想删除一个元素，我们可以进行头删（单链表头删效率高）。首先定义一个prev，然后找到对应的key时，如果这个元素是链表头，就要改头的下一个位置的元素变成新的链表头；如果不是，就将prev的next直接链接到当前key的下一个元素，最后delete掉即可。（这里始终保证prev是cur的上一个元素）。

c.查找

查找函数的具体实现：

这个就是找到对应的桶，然后进行查找即可（单链表查找）。

开散列实现：

#pragma once

namespace Bucket
{
	template <class K, class V>
	struct HashNode
	{
		pair<K, V> _kv;
		HashNode<K, V>* _next;

		HashNode(const pair<K, V>& kv)
			: _kv(kv)
			, _next(nullptr)
		{}
	};

	template <class K, class V, class HashFunc = DefaultHash<K>>
	class HashTable
	{
		typedef HashNode<K, V> Node;
	public:
		~HashTable()
		{
			for (size_t i = 0; i < _tables.size(); ++i)
			{
				Node* cur = _tables[i];
				while (cur)
				{

					Node* next = cur->_next;
					delete cur;
					cur = next;
				}

				_tables[i] = nullptr;
			}
		}

		bool Insert(const pair<K, V>& kv)
		{
			if (Find(kv.first))
			{
				return false;
			}

			HashFunc hf;

			// 负载因子 == 1 扩容
			if (_tables.size() == _n)
			{
				size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
				vector<Node*> newTable;
				newTable.resize(newSize, nullptr);
				for (size_t i = 0; i < _tables.size(); ++i)
				{
					Node* cur = _tables[i];
					while (cur)
					{
						Node* next = cur->_next;

						size_t hashi = hf(cur->_kv.first) % newSize;
						cur->_next = newTable[hashi];
						newTable[hashi] = cur;

						cur = next;
					}

					_tables[i] = nullptr;
				}

				newTable.swap(_tables);
			}

			size_t hashi = hf(kv.first);
			hashi %= _tables.size();

			// 头插到对应的桶
			Node* newnode = new Node(kv);
			newnode->_next = _tables[hashi];
			_tables[hashi] = newnode;

			++_n;

			return true;
		}

		Node* Find(const K& key)
		{
			if (_tables.size() == 0)
			{
				return nullptr;
			}

			HashFunc hf;
			size_t hashi = hf(key);
			hashi %= _tables.size();
			Node* cur = _tables[hashi];
			while (cur)
			{
				if (cur->_kv.first == key)
				{
					return cur;
				}

				cur = cur->_next;
			}

			return nullptr;
		}

		bool Erase(const K& key)
		{
			if (_tables.size() == 0)
			{
				return false;
			}

			HashFunc hf;
			size_t hashi = hf(key);
			hashi %= _tables.size();
			Node* prev = nullptr;
			Node* cur = _tables[hashi];
			while (cur)
			{
				if (cur->_kv.first == key)
				{
					if (prev == nullptr)
					{
						_tables[hashi] = cur->_next;
					}
					else
					{
						prev->_next = cur->_next;
					}

					delete cur;

					return true;
				}

				prev = cur;
				cur = cur->_next;
			}

			return false;
		}
	private:
		vector<Node*> _tables; // 指针数组
		size_t _n = 0;
	};
}

（3）开散列与闭散列比较

开散列（链地址法）处理溢出，需要增设链接指针，似乎增加了存储开销。事实上，由于闭散列（开地址法）必须保持大量的空闲空间以确保搜索效率，导致闭散列表项所占空间比指针大的多。因此使用开散列（链地址法）要比闭散列（开地址法）节省存储空间。

三.unordered_set及unordered_map模拟实现

1.哈希表改造

为了用哈希表去封装unordered_set和unordered_map（这里用的是开散列封装），就要去改造哈希表，然后在unordered_set和unordered_map中调用哈希表函数即可。而如何改造，模板和迭代器是关键。

这里类似于之前模拟实现的set和map，但是哈希表要再稍微麻烦一些。

set+map->C++ 关联式容器map+set_糖果雨滴a的博客-CSDN博客

（1）模板

这里模板的K就是key，但是因为要封装unordered_set和unordered_map，所以我们不确定下一个参数是不是V，因此这个T是决定存什么的，如果是unordered_set就是K，如果是unordered_map就是V。

KeyOfT仿函数就是用在封装时，到底是unordered_set返回key，还是unordered_map返回kv.first，这里需要作为区分。

HashFunc仿函数就是因为我们不知道存的数据是什么，所以对存的数据的不同，要进行不同的处理。

template <class K, class T, class KeyOfT, class HashFunc>

（2）迭代器

迭代器需要我们自己封装实现，这里的成员变量分别是结点，和指向哈希表的指针。

然后实现*，->，!=，==，++的操作符重载（这里不需要实现 --的操作符重载，因为哈希表的是单向迭代器）。

这些操作符重载的实现比较简单，只有++需要去进行查找。

template <class T>
struct HashNode
{
	T _data;
	HashNode<T>* _next;

	HashNode(const T& data)
		: _data(data)
		, _next(nullptr)
	{}
};

template <class K, class T, class KeyOfT, class HashFunc>
class HashTable;

template<class K, class T, class KeyOfT, class HashFunc>
class __HTIterator
{
	typedef HashNode<T> Node;
	typedef __HTIterator<K, T, KeyOfT, HashFunc> Self;
public:
	Node* _node;
	HashTable<K, T, KeyOfT, HashFunc>* _pht;

	__HTIterator()
	{}

	__HTIterator(Node* node, HashTable<K, T, KeyOfT, HashFunc>* pht)
		: _node(node)
		, _pht(pht)
	{}

	Self& operator++()
	{
		if (_node->_next)
		{
			_node = _node->_next;
		}
		else
		{
			KeyOfT kot;
			HashFunc hf;
			size_t hashi = hf(kot(_node->_data)) % _pht->_tables.size();
			++hashi;
			// 找下一个不为空的桶
			for (; hashi < _pht->_tables.size(); ++hashi)
			{
				if (_pht->_tables[hashi])
				{
					_node = _pht->_tables[hashi];
					break;
				}
			}

			// 没有找到不为空的桶，用nullptr去做end标识
			if (hashi == _pht->_tables.size())
			{
				_node = nullptr;
			}
		}

		return *this;
	}

	T& operator*()
	{
		return _node->_data;
	}

	T* operator->()
	{
		return &_node->_data;
	}

	bool operator!=(const Self& s) const
	{
		return _node != s._node;
	}

	bool operator==(const Self& s) const
	{
		return _node == s._node;
	}
};

（3）修改完善函数

接下来就要把之前所实现的函数进行修改完善，并且因为多了迭代器，所以也要实现迭代器的接口函数。

迭代器的begin和end实现比较简单，注意这里的返回值，返回值是一个利用当前结点和当前指向哈希表的指针构造的iterator。

为了unordered_map的[]操作符重载的实现，我们需要对Insert和的Find返回值进行修改，Insert函数的返回值需要是一个pair类型的（其中一个是iterator类型，另一个是bool类型）。

iterator类型就是为了调用[]后可以得到当前的迭代器，而bool类型是为了判断是否插入成功的。

查找函数也需要修改一下返回值，它的返回值要改成迭代器，找到了就要返回这个函数的迭代器，这样在插入函数中才能得到其对应的迭代器。

这里还有一个优化，就是让扩容后的值是质数。这个在C++的STL源码中是进行了这个修改的，但是java中并没有，所以也不是很确定这个优化到底如何。

优化如下：

size_t GetNextPrime(size_t prime)
{
	const int PRIMECOUNT = 28;
	static const size_t primeList[PRIMECOUNT] =
	{
		53ul, 97ul, 193ul, 389ul, 769ul,
		1543ul, 3079ul, 6151ul, 12289ul, 24593ul,
		49157ul, 98317ul, 196613ul, 393241ul, 786433ul,
		1572869ul, 3145739ul, 6291469ul, 12582917ul, 25165843ul,
		50331653ul, 100663319ul, 201326611ul, 402653189ul, 805306457ul,
		1610612741ul, 3221225473ul, 4294967291ul
	};

	// 获取比prime大那一个素数
	size_t i = 0;
	for (; i < PRIMECOUNT; ++i)
	{
		if (primeList[i] > prime)
			return primeList[i];
	}

	return primeList[i];
}

pair<iterator, bool> Insert(const T& data)
{
	HashFunc hf;
	KeyOfT kot;

	iterator pos = Find(kot(data));
	if (pos != end())
	{
		return make_pair(pos, false);
	}

	// 负载因子 == 1 扩容
	if (_tables.size() == _n)
	{
		//size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
		size_t newSize = GetNextPrime(_tables.size());
		if (newSize != _tables.size())
		{
			vector<Node*> newTable;
			newTable.resize(newSize, nullptr);
			for (size_t i = 0; i < _tables.size(); ++i)
			{
				Node* cur = _tables[i];
				while (cur)
				{
					Node* next = cur->_next;

					size_t hashi = hf(kot(cur->_data)) % newSize;
					cur->_next = newTable[hashi];
					newTable[hashi] = cur;

					cur = next;
				}

				_tables[i] = nullptr;
			}

			newTable.swap(_tables);
		}
	}

	size_t hashi = hf(kot(data));
	hashi %= _tables.size();

	// 头插到对应的桶
	Node* newnode = new Node(data);
	newnode->_next = _tables[hashi];
	_tables[hashi] = newnode;

	++_n;

	return make_pair(iterator(newnode, this), true);
}

哈希表改造后全部代码：

#pragma once

template <class K>
struct DefaultHash
{
	size_t operator()(const K& key)
	{
		return (size_t)key;
	}
};

template<>
struct DefaultHash<string>
{
	size_t operator()(const string& key)
	{
		// BKDR
		size_t hash = 0;
		for (auto ch : key)
		{
			hash = hash * 131 + ch;
		}

		return hash;
	}
};

namespace Bucket
{
	template <class T>
	struct HashNode
	{
		T _data;
		HashNode<T>* _next;

		HashNode(const T& data)
			: _data(data)
			, _next(nullptr)
		{}
	};

	template <class K, class T, class KeyOfT, class HashFunc>
	class HashTable;

	template<class K, class T, class KeyOfT, class HashFunc>
	class __HTIterator
	{
		typedef HashNode<T> Node;
		typedef __HTIterator<K, T, KeyOfT, HashFunc> Self;
	public:
		Node* _node;
		HashTable<K, T, KeyOfT, HashFunc>* _pht;

		__HTIterator()
		{}

		__HTIterator(Node* node, HashTable<K, T, KeyOfT, HashFunc>* pht)
			: _node(node)
			, _pht(pht)
		{}

		Self& operator++()
		{
			if (_node->_next)
			{
				_node = _node->_next;
			}
			else
			{
				KeyOfT kot;
				HashFunc hf;
				size_t hashi = hf(kot(_node->_data)) % _pht->_tables.size();
				++hashi;
				// 找下一个不为空的桶
				for (; hashi < _pht->_tables.size(); ++hashi)
				{
					if (_pht->_tables[hashi])
					{
						_node = _pht->_tables[hashi];
						break;
					}
				}

				// 没有找到不为空的桶，用nullptr去做end标识
				if (hashi == _pht->_tables.size())
				{
					_node = nullptr;
				}
			}

			return *this;
		}

		T& operator*()
		{
			return _node->_data;
		}

		T* operator->()
		{
			return &_node->_data;
		}

		bool operator!=(const Self& s) const
		{
			return _node != s._node;
		}

		bool operator==(const Self& s) const
		{
			return _node == s._node;
		}
	};

	// unordered_map ->HashTable<K, pair<K, V>, MapKeyOfT> _ht;
	// unordered_set ->HashTable<K, K, SetKeyOfT> _ht;
	template <class K, class T, class KeyOfT, class HashFunc>
	class HashTable
	{
		template <class K, class T, class KeyOfT, class HashFunc>
		friend class __HTIterator;

		typedef HashNode<T> Node;
	public:
		typedef __HTIterator<K, T, KeyOfT, HashFunc> iterator;

		iterator begin()
		{
			for (size_t i = 0; i < _tables.size(); ++i)
			{
				Node* cur = _tables[i];
				if (cur)
				{
					return iterator(cur, this);
				}
			}

			return end();
		}

		iterator end()
		{
			return iterator(nullptr, this);
		}

		~HashTable()
		{
			for (size_t i = 0; i < _tables.size(); ++i)
			{
				Node* cur = _tables[i];
				while (cur)
				{

					Node* next = cur->_next;
					delete cur;
					cur = next;
				}

				_tables[i] = nullptr;
			}
		}

		size_t GetNextPrime(size_t prime)
		{
			const int PRIMECOUNT = 28;
			static const size_t primeList[PRIMECOUNT] =
			{
				53ul, 97ul, 193ul, 389ul, 769ul,
				1543ul, 3079ul, 6151ul, 12289ul, 24593ul,
				49157ul, 98317ul, 196613ul, 393241ul, 786433ul,
				1572869ul, 3145739ul, 6291469ul, 12582917ul, 25165843ul,
				50331653ul, 100663319ul, 201326611ul, 402653189ul, 805306457ul,
				1610612741ul, 3221225473ul, 4294967291ul
			};

			// 获取比prime大那一个素数
			size_t i = 0;
			for (; i < PRIMECOUNT; ++i)
			{
				if (primeList[i] > prime)
					return primeList[i];
			}

			return primeList[i];
		}

		pair<iterator, bool> Insert(const T& data)
		{
			HashFunc hf;
			KeyOfT kot;

			iterator pos = Find(kot(data));
			if (pos != end())
			{
				return make_pair(pos, false);
			}

			// 负载因子 == 1 扩容
			if (_tables.size() == _n)
			{
				//size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
				size_t newSize = GetNextPrime(_tables.size());
				if (newSize != _tables.size())
				{
					vector<Node*> newTable;
					newTable.resize(newSize, nullptr);
					for (size_t i = 0; i < _tables.size(); ++i)
					{
						Node* cur = _tables[i];
						while (cur)
						{
							Node* next = cur->_next;

							size_t hashi = hf(kot(cur->_data)) % newSize;
							cur->_next = newTable[hashi];
							newTable[hashi] = cur;

							cur = next;
						}

						_tables[i] = nullptr;
					}

					newTable.swap(_tables);
				}
			}

			size_t hashi = hf(kot(data));
			hashi %= _tables.size();

			// 头插到对应的桶
			Node* newnode = new Node(data);
			newnode->_next = _tables[hashi];
			_tables[hashi] = newnode;

			++_n;

			return make_pair(iterator(newnode, this), true);
		}

		iterator Find(const K& key)
		{
			if (_tables.size() == 0)
			{
				return iterator(nullptr, this);
			}

			KeyOfT kot;
			HashFunc hf;
			size_t hashi = hf(key);
			hashi %= _tables.size();
			Node* cur = _tables[hashi];
			while (cur)
			{
				if (kot(cur->_data) == key)
				{
					return iterator(cur, this);
				}

				cur = cur->_next;
			}

			return iterator(nullptr, this);
		}

		bool Erase(const K& key)
		{
			if (_tables.size() == 0)
			{
				return false;
			}

			HashFunc hf;
			KeyOfT kot;
			size_t hashi = hf(key);
			hashi %= _tables.size();
			Node* prev = nullptr;
			Node* cur = _tables[hashi];
			while (cur)
			{
				if (kot(cur->_data) == key)
				{
					if (prev == nullptr)
					{
						_tables[hashi] = cur->_next;
					}
					else
					{
						prev->_next = cur->_next;
					}

					delete cur;

					return true;
				}

				prev = cur;
				cur = cur->_next;
			}

			return false;
		}
	private:
		vector<Node*> _tables; // 指针数组
		size_t _n = 0;
	};
}

接下来封装unordered_set和unordered_map就比较简单了。

2.unordered_set

unordered_set是K模型的，因此这里仿函数HashFunc中返回的返回的key。

其它接口都是去调用改造后的哈希表。

#pragma once

#include "HashTable.h"

namespace hb
{
	template <class K, class HashFunc = DefaultHash<K>>
	class unordered_set
	{
		struct SetKeyOfT
		{
			const K& operator()(const K& key)
			{
				return key;
			}
		};
	public:
		typedef typename Bucket::HashTable<K, K, SetKeyOfT, HashFunc>::iterator iterator;
		
		iterator begin()
		{
			return _ht.begin();
		}

		iterator end()
		{
			return _ht.end();
		}

		pair<iterator, bool> insert(const K& key)
		{
			return _ht.Insert(key);
		}

		iterator find(const K& key)
		{
			return _ht.Find(key);
		}

		bool erase(const K& key)
		{
			return _ht.Erase(key);
		}
	private:
		Bucket::HashTable<K, K, SetKeyOfT, HashFunc> _ht;
	};
}

3.unordered_map

unordered_map是K，V模型的，因此这里仿函数HashFunc中返回的返回的kv.first。

其它接口都是去调用改造后的哈希表。这里就注意一下[]操作符的实现即可。

#pragma once

#include "HashTable.h"

namespace hb
{
	template<class K, class V, class HashFunc = DefaultHash<K>>
	class unordered_map
	{
		struct MapKeyOfT
		{
			const K& operator()(const pair<K, V>& kv)
			{
				return kv.first;
			}
		};
	public:
		typedef typename Bucket::HashTable<K, pair<K, V>, MapKeyOfT, HashFunc>::iterator iterator;

		iterator begin()
		{
			return _ht.begin();
		}

		iterator end()
		{
			return _ht.end();
		}

		pair<iterator, bool> insert(const pair<K, V>& kv)
		{
			return _ht.Insert(kv);
		}

		iterator find(const K& key)
		{
			return _ht.Find(key);
		}

		bool erase(const K& key)
		{
			return _ht.Erase(key);
		}

		V& operator[](const K& key)
		{
			pair<iterator, bool> ret = insert(make_pair(key, V()));
			return ret.first->second;
		}
	private:
		Bucket::HashTable<K, pair<K, V>, MapKeyOfT, HashFunc> _ht;
	};
}

冰果滴

关注

4
点赞
踩
17

收藏

觉得还不错? 一键收藏
打赏
0
评论
C++ 哈希表及unordered_set + unordered_map容器

前言：unordered_set和unordered_map是C++11中新增加的两个关联式容器，使用方式与set和map基本相同，但是unordered_set和unordered_map的底层是哈希表，而set和map的底层是红黑树。并且unordered_set不能排序；unordered_set和unordered_map是单向迭代器；效率要高一下，时间复杂度为O(1)。
复制链接

扫一扫