目录
一、哈希的概念
在我们之前学到的数据结构中,以顺序结构和平衡树形结构为主,其元素的关键码与其存储的位置没有直接对应的关系,因此在查找一个元素时,必须要经过多次的关键码的比对。顺序查找的时间复杂度为O(N),平衡树中即为树的高度,即log2N,搜索的效率取决于搜索过程中元素的比较次数。
但是我们理想的结构是:可以不经过任何比较,一次直接从表中得到要搜索的元素。
如果构造一种存储结构,通过某种函数(hashFunc)使元素的存储位置与它的关键码之间能够建立
一一映射的关系,那么在查找时通过该函数可以很快找到该元素。
当向该结构中:
插入元素
根据待插入元素的关键码,以此函数计算出该元素的存储位置并按此位置进行存放
搜索元素
对元素的关键码进行同样的计算,把求得的函数值当做元素的存储位置,在结构中按此位置取元素比较,若关键码相等,则搜索成功
该方式即为哈希(散列)方法,哈希方法中使用的转换函数称为哈希(散列)函数,构造出来的结构称为哈希表(Hash Table)(或者称散列表)。
例如:数据集合{1,7,6,4,5,9};
哈希函数设置为:hash(key) = key % capacity; capacity为存储元素底层空间总的大小。
用该方法进行搜索不必进行多次关键码的比较,因此搜索的速度比较快
但是也出现了一个问题:按照上述哈希方式,向集合中插入元素44,会出现什么问题?
二、哈希冲突
对于两个数据元素的关键字不同,但是按照哈希映射的规则却会映射到同一个为止,即:不同关键字通过相同哈希哈数计算出相同的哈希地址,该种现象称为哈希冲突或哈希碰撞。我们把具有不同关键码而具有相同哈希地址的数据元素称为“同义词”。发生哈希冲突该如何处理呢?
(1)哈希函数
引起哈希冲突的一个原因可能是:哈希函数设计不够合理。
哈希函数设计原则:
哈希函数的定义域必须包括需要存储的全部关键码,而如果散列表允许有m个地址时,其值域必须在0到m-1之间;哈希函数计算出来的地址能均匀分布在整个空间中;哈希函数应该比较简单。
我们简单介绍一个常见的哈希函数
1. 直接定址法--(常用)
取关键字的某个线性函数为散列地址:Hash(Key)= A*Key + B
优点:简单、均匀
缺点:需要事先知道关键字的分布情况
使用场景:适合查找比较小且连续的情况
面试题:字符串中第一个只出现一次字符
2. 除留余数法--(常用)
设散列表中允许的地址数为m,取一个不大于m,但最接近或者等于m的质数p作为除数,
按照哈希函数:Hash(key) = key% p(p<=m),将关键码转换成哈希地址
注意:哈希函数设计的越精妙,产生哈希冲突的可能性就越低,但是无法避免哈希冲突
(2)闭散列和开放列
2.1闭散列
闭散列:也叫开放定址法,当发生哈希冲突时,如果哈希表未被装满,说明在哈希表中必然还有空位置,那么可以把key存放到冲突位置中的“下一个” 空位置中去。那如何寻找下一个空位置
呢?
1. 线性探测
比如2.1中的场景,现在需要插入元素44,先通过哈希函数计算哈希地址,hashAddr为4,因此44理论上应该插在该位置,但是该位置已经放了值为4的元素,即发生哈希冲突。线性探测:从发生冲突的位置开始,依次向后探测,直到寻找到下一个空位置为止。
插入
通过哈希函数获取待插入元素在哈希表中的位置如果该位置中没有元素则直接插入新元素,如果该位置中有元素发生哈希冲突,使用线性探测找到下一个空位置,插入新元素。
删除
采用闭散列处理哈希冲突时,不能随便物理删除哈希表中已有的元素,若直接删除元素会影响其他元素的搜索。比如删除元素4,如果直接删除掉,44查找起来可能会受影响。因此线性探测采用标记的伪删除法来删除一个元素。
线性探测的实现
在闭散列中,需要给每一个空间都标记上三种不同的状态,用来方便后续的函数
#pragma once
#include <utility>//pair
#include<vector>
#include<string>
namespace hmy
{
//状态量
enum Status
{
EMPTY,EXIST,DELETE
};
//节点的结构体
template<class K,class V>
struct HashData
{
pair<K, V> _kv;
Status _s;
};
//仿函数,为了可以让每一种数据都能进行取模
template<class K>
struct HashFunc
{
size_t operator()(const K& key)
{
return (size_t)key;
}
};
template<>
struct HashFunc<std::string>
{
size_t operator()(const std::string& key)
{
size_t hash = 0;
//把key里面的字符拿出来通过一定规律求出关键字
for (auto e:key)
{
hash *= 31;
hash += e;
}
return hash;
}
};
//hash表
template<class K,class V,class Hash=HashFunc<K>>
class HashTable
{
public:
//构造函数
HashTable()
{
_tables.resize(10);
}
//查找
HashData<K, V>* find(const K& key)
{
Hash hf;
size_t hashi = hf(key) % _tables.size();
//当他不为空的时候,一直往后面找
while (_tables[hashi]._s!=EMPTY)
{
if (_tables[hashi].s==EXIST&&_tables[hashi].kv.first==key)
{
return &_tables[hashi];
}
//一直往后面走,每一次走都取模一下,来重新定位(这个取模还防止了hashi走出去了)
++hashi;
hashi %= _tables.size();
}
return nullptr;
}
//删除
bool erase(const K& key)
{
HashData<K, V>* ret = find(key);
if (ret)
{
ret->_s = DELETE;
--_n;
return true
}
else
{
return false;
}
}
//插入
bool insert(const pair<K,V>& kv)
{
//已经存在了,插入失败
if (find(kv.first)!=nullptr)
{
return false;
}
//插入之前判断是否需要扩容
//负载因子大于0.7就扩容
double loadfactor = _n / _tables.size();
if (loadfactor>=0.7)
{
size_t newsize = _tables.size() * 2;
HashTable<K, V> newHT;
newHT._tables.resize(newsize);
//遍历旧表,把旧表的值插入给新表
//因为扩容了,映射的关系发生了变化
for (size_t i=0;i<_tables.size();i++)
{
//存在才需要插入
if (_tables[i]._s==EXIST)
{
newHT.insert(_tables[i].kv);
}
}
//交换新表和旧表的数组指针
_tables.swap(newHT._tables);
}
Hash hf;
size_t hashi = hf(kv.first) % _tables.size();
//当状态!=exist(为空或者删除)的时候,就可以放入值,==exist就往后面找
while (_tables[hashi]._s==EXIST)
{
hashi++;
//hashi走出了vector的size呢
hash %= _tables.size();
}
//找到了状态为空或者删除的位置
_tables[hashi]._kv = kv;
_tables[hashi]._s = EXIST;
++_n;
return true;
}
private:
//一个数组,里面存放的全部都是HashData结构体
vector<HashData<K, V>> _tables;
//存储的节点(关键字)的个数
size_t _n;
};
}
这里的实现不是很困难,但是我们需要注意仿函数的用法:将不同类型的参数,转换成了对应的关键字,再通过关键字去找到哈希表中的映射地址
思考:哈希表什么情况下进行扩容?如何扩容?
线性探测优点:实现非常简单,
线性探测缺点:一旦发生哈希冲突,所有的冲突连在一起,容易产生数据“堆积”,即:不同
关键码占据了可利用的空位置,使得寻找某关键码的位置需要许多次比较,导致搜索效率降
低。如何缓解呢?
2.2开散列
开散列法又叫链地址法(开链法),首先对关键码集合用散列函数计算散列地址,具有相同地
址的关键码归于同一子集合,每一个子集合称为一个桶,各个桶中的元素通过一个单链表链接起来,各链表的头结点存储在哈希表中。
从上图可以看出,开散列中每个桶中放的都是发生哈希冲突的元素。
开散列的扩容
桶的个数是一定的,随着元素的不断插入,每个桶中的元素会不断增多,极端条件下,可能会导致一个桶中链表节点非常多,从而影响到哈希表的性能,因此在一定条件下需要对哈希表进行扩容,那么条件该怎么确定呢?开散列最好的情况是:每一个哈希桶职工刚好挂一个节点,再继续插入元素时,每一次都会发生哈希冲突,因此,在元素个数刚好等于桶的个数(平均下来每一个桶都只有一个元素)时,可以给哈希表扩容
开散列的实现
#pragma once
#include <utility>//pair
#include<vector>
#include<string>
using namespace std;
template<class K>
struct HashFunc
{
size_t operator()(const K& key)
{
return (size_t)key;
}
};
template<>
struct HashFunc<std::string>
{
size_t operator()(const std::string& key)
{
size_t hash = 0;
for (auto e:key)
{
hash *= 31;
hash += e;
}
return hash;
}
};
namespace hash_bucket
{
template<class K,class V>
struct HashNode
{
HashNode* _next;
pair<K, V> _kv;
//构造函数
HashNode(const pair<K,V>& kv)
:_kv(kv)
,_next(nullptr)
{}
};
template<class K,class V,class Hash=HashFunc<K>>
class HashTable
{
typedef HashNode<K, V> Node;
public:
//构造函数
HashTable()
{
_tables.resize(10);
}
//查找
Node* find(const K& key)
{
Hash hf;
size_t hashi = hf(key)%_tables.size();
Node* cur = _tables[hashi];
while (cur!=nullptr)
{
if (cur->_kv.first==key)
{
return cur;
}
cur = cur->_next;
}
return nullptr
}
//插入
bool insert(const pair<K,V>& kv)
{
if (find(kv.first))
{
return false;
}
Hash hf;
//负载因子
size_t loadfactor = _n / _tables.size();
if (loadfactor==1)
{
std::vector<Node*> newTables;
newTables.resize(_tables.size() * 2, nullptr);
//遍历旧表,更改原表节点的位置
for (size_t i=0;i<_tables.size();i++)
{
Node* cur = _tables[i];
while (cur!=nullptr)
{
Node* next = cur->_next;
//挪动数据到新表
size_t hashi = hf(cur->_kv.first)%newTables.size();
//头插
cur->_next = newTables[hashi];
newTables[hashi] = cur;
cur = next;
}
_tables[i] = nullptr;
}
_tables.swap(newTables);
}
size_t hashi = hf(kv.first) % _tables.size();
Node* newnode = new Node(kv);
//头插
newnode->_next = _tables[hashi];
_tables[hashi] = newnode;
++_n;
return true;
}
//删除
bool erase(const K& key)
{
Hash hf;
size_t hashi = hf(key) % _tables.size();
Node* prev = nullptr;
Node* cur = _tables[hashi];
while (cur!=nullptr)
{
if (cur->_kv.first==key)
{
//如果要删除的位置就是第一个,没有prev了
if (prev==nullptr)
{
_tables[hashi] = cur->_next;
}
else
{
prev->_next = cur->_next;
}
delete cur;
return true;
}
else
{
prev = cur;
cur = cur->_next;
}
}
return false;
}
private:
std::vector<Node*> _tables;
size_t _n = 0;
};
}
三、哈希表的模拟实现
模板参数的列表的改造
// K:关键码类型
// V: 不同容器V的类型不同,如果是unordered_map,V代表一个键值对,如果是
unordered_set,V 为 K
// KeyOfValue: 因为V的类型不同,通过value取key的方式就不同,详细见
unordered_map/set的实现
// HF: 哈希函数仿函数对象类型,哈希函数使用除留余数法,需要将Key转换为整形数字才能
取模
template<class K, class V, class KeyOfValue, class HF = DefHashF<T> >
class HashBucket;
增加迭代器操作
// 为了实现简单,在哈希桶的迭代器类中需要用到hashBucket本身,
template<class K, class V, class KeyOfValue, class HF>
class HashBucket;
实现代码
代码框架
实现细节
#pragma once
#include <utility>//pair
#include<vector>
#include<string>
using namespace std;
template<class K>
struct HashFunc
{
size_t operator()(const K& key)
{
return (size_t)key;
}
};
template<>
struct HashFunc<std::string>
{
size_t operator()(const std::string& key)
{
size_t hash = 0;
for (auto e : key)
{
hash *= 31;
hash += e;
}
return hash;
}
};
namespace hash_bucket
{
template<class T>
struct HashNode
{
HashNode<T>* _next;
T _data;
//构造函数
HashNode(const T& data)
:_data(data)
, _next(nullptr)
{}
};
//前置声明
template<class K,class T,class KeyOfT,class Hash>
class HashTable;
//迭代器
template<class K, class T, class Ref, class Ptr, class KeyOfT, class Hash>
struct __HTIterator
{
typedef HashNode<T> Node;
typedef __HTIterator<K, T, Ref, Ptr, KeyOfT, Hash> self;
//成员变量
Node* _node;
const HashTable<K, T, KeyOfT, Hash>* _pht;
size_t _hashi;
//成员函数
__HTIterator(Node* node, HashTable<K, T, KeyOfT, Hash>* pht,size_t hashi)
:_node(node)
,_pht(pht)
,_hashi(hashi)
{}
self& operator++()
{
//当前桶还有节点,走到下一个节点
if (_node->_next)
{
_node = _node->_next;
}
//当前桶已经走完了,找下一个桶开始
else
{
++_hashi;
while (_hashi<_pht->_tables.size())
{
//桶不为空,从这里开始遍历
if (_pht->_tables[_hashi])
{
_node = _pht->_tables[hasi];
break;
}
++_hashi;
}
if (_hashi==_pht->_tables.size())
{
return nullptr;
}
}
return *this;
}
Ref operator*()
{
return _node->_data;
}
Ptr operator->()
{
return &_node->_data;
}
bool operator!=(const self& s)
{
return _node != s._node;
}
};
//哈希表
template<class K, class T,class KeyOfT,class Hash>
class HashTable
{
typedef HashNode<T> Node;
template<class K,class T,class Ref,class Ptr,class KeyOfT,class Hash>
friend struct __HTIterator;
public:
//迭代器相关函数
typedef __HTIterator<K, T, T&, T*, KeyOfT, Hash> iterator;
typedef __HTIterator<K, T, const T&, const T*, KeyOfT, Hash> const_iterator;
iterator begin()
{
for (size_t i=0;i<_tables.size();i++)
{
if (_tables[i])
{
return iterator(_tables[i],this,i);
}
}
return end();
}
iterator end()
{
return iterator(nullptr,this,-1);
}
const_iterator begin()const
{
for (size_t i = 0;i < _tables.size();i++)
{
if (_tables[i])
{
return const_iterator(_tables[i], this, i);
}
}
return end();
}
const_iterator end()const
{
return const_iterator(nullptr, this, -1);
}
//构造函数
HashTable()
{
_tables.resize(10);
}
//查找
iterator find(const K& key)
{
Hash hf;
KeyOfT kot;
size_t hashi = hf(key) % _tables.size();
Node* cur = _tables[hashi];
while (cur != nullptr)
{
if (kot(cur->_data) == key)
{
return iterator(cur,this,hashi);
}
cur = cur->_next;
}
return end();
}
//插入
pair<iterator,bool> insert(const T& data)
{
Hash hf;
KeyOfT kot;
//kot是取出data的第一个元素,但是第一个元素不一定是整形,加上hf构造关键码
iterator it = find(hf(kot(data)));
if (it!=end())
{
return make_pair(it, false);
}
//负载因子
size_t loadfactor = _n / _tables.size();
if (loadfactor == 1)
{
std::vector<Node*> newTables;
newTables.resize(_tables.size() * 2, nullptr);
//遍历旧表,更改原表节点的位置
for (size_t i = 0;i < _tables.size();i++)
{
Node* cur = _tables[i];
while (cur != nullptr)
{
Node* next = cur->_next;
//挪动数据到新表
size_t hashi = hf(kot(cur->_data)) % newTables.size();
//头插
cur->_next = newTables[hashi];
newTables[hashi] = cur;
cur = next;
}
_tables[i] = nullptr;
}
_tables.swap(newTables);
}
size_t hashi = hf(kot(data)) % _tables.size();
Node* newnode = new Node(kv);
//头插
newnode->_next = _tables[hashi];
_tables[hashi] = newnode;
++_n;
return make_pair(iterator(newnode,this,hashi));
}
//删除
bool erase(const K& key)
{
Hash hf;
size_t hashi = hf(key) % _tables.size();
Node* prev = nullptr;
Node* cur = _tables[hashi];
while (cur != nullptr)
{
if (kot(cur->_data) == key)
{
//如果要删除的位置就是第一个,没有prev了
if (prev == nullptr)
{
_tables[hashi] = cur->_next;
}
else
{
prev->_next = cur->_next;
}
delete cur;
return true;
}
else
{
prev = cur;
cur = cur->_next;
}
}
return false;
}
private:
std::vector<Node*> _tables;
size_t _n = 0;
};
}
namespace hash_bucket
{
//在这里就传递了Hash,不用我们在hashtable里面传参了
template<class K,class V, class Hash = HashFunc<K>>
class unordered_map
{
struct MapKeyofT
{
const K& operator(const pair<K,V>& kv)
{
return kv.first;
}
};
public:
typedef typename hash_bucket::HashTable<K, pair<const K,V>, MapKeyofT, Hash>::iterator iterator;
iterator begin()
{
return _ht.begin();
}
iterator end()
{
return end();
}
pair<const_iterator, bool> insert(const pair<K,V>& kv)
{
return _ht.insert(kv);
}
V& operator[](const K& key)
{
pair<iterator, bool> ret = _ht.insert(make_pair(key,V()));
//ret.first是iterator类型,因为iterator当做指针来用,所以用->
return ret.first->second;
}
const V& operator[](const K& key)const
{
pair<iterator, bool> ret = _ht.insert(make_pair(key, V()));
return ret.first->second;
}
iterator find(const K& key)
{
return _ht.find(key);
}
bool erase(const K& key)
{
return _ht.erase(key);
}
private:
hash_bucket::HashTable<K, pair<const K,V>, MapKeyofT, Hash> _ht;
};
}
namespace hash_bucket
{
//在这里就传递了Hash,不用我们在hashtable里面传参了
template<class K,class Hash=HashFunc<K>>
class unordered_set
{
struct SetKeyofT
{
const K& operator(const K& key)
{
return key;
}
};
public:
typedef typename hash_bucket::HashTable<K, K, SetKeyofT, Hash>::const_iterator iterator;
typedef typename hash_bucket::HashTable<K, K, SetKeyofT, Hash>::const_iterator const_iterator;
const_iterator begin()const
{
return _ht.begin();
}
const_iterator end()const
{
return _ht.end();
}
pair<const_iterator, bool> insert(const K& key)
{
auto ret = _ht.insert(key);
return pair<const_iterator,bool>(const_iterator(ret.first._node,ret.first._pht,ret.first._hashi),ret.second)
}
iterator find(const K& key)
{
return _ht.find(key);
}
bool erase(const K& key)
{
return _ht.erase(key);
}
private:
hash_bucket::HashTable<K, K, SetKeyofT, Hash> _ht;
};
}