哈希表的实现【控制哈希表长度,设计哈希函数,处理哈希冲突】

目录

怎样控制哈希表的长度

怎样设计哈希函数

字符串哈希算法

优秀的字符串哈希算法

怎样处理哈希冲突

一、开放定址法

  1.线性探测法

  2.二次探测法

  3.再哈希法

二、拉链法(哈希桶)


哈希表的设计主要是为了对内存中的数据进行快速查找,它的查找时间复杂度是O(1)。设计一个哈希表的关键有三个:怎么控制哈希表的长度,怎么设计哈希函数,怎么处理哈希冲突。

怎样控制哈希表的长度

哈希表的长度一般是定长的,在存储数据之前我们应该知道存储的数据规模是多大,应该尽可能地避免频繁地让哈希表扩容。我们设计的哈希表的大小,必须要做到尽可能地减小哈希冲突,并且也要尽可能地不浪费空间,选择合适的哈希表的大小是提升哈希表性能的关键。

当我们选择哈希函数的时候,经常会选择除留余数法,即用存储数据的key值除以哈希表的总长度,得到的余数就是它的哈希值。常识告诉我们,当一个数除以一个素数的时候,会产生最分散的余数(哈希值会对key有更多的依赖)。由于我们通常使用表的大小对哈希函数的结果进行模运算,如果表的大小是一个素数,那么这样我们就会尽可能地产生分散的哈希值。

哈希表中还有一个概念就是表的装填因子(负载因子),它的值一般被定义为:

装填因子 a = 总键值对数(下标占用数)/ 哈希表总长度装填因子 a = 总键值对数(下标占用数) /  哈希表总长度

至于为什么要设计这样一个概念,我们可以想,如果一个哈希表中的数据装的越多,是不是越容易发生哈希冲突。如果当哈希表中满到只剩下一个下标可以插入的时候,这个时候我们还要往这个哈希表中插入数据,于是我们可能会达到一个O(n)级别的插入效率,我们甚至要遍历整个哈希表才可能找到那个能存储的位置。

通常,我们关注的是使哈希表平均查找长度最小,把平均查找长度保证在O(1)级别。装填因子a的取值越小,产生冲突的机会就越小,但是也不能取太小,这样我们会造成较大的空间浪费。即如果我们a取0.1,而我们哈希表的长度为100,那我们只装了10个键值对就存不下了,就要对哈希表进行扩容,而剩下90个键值对空间其实是浪费了的。通常,只要a取的合适(一般取0.7-0.8之间),哈希表的平均查找长度就会是常数也就是O(1)级别的

当然,根据数据量的不同,会有不同的哈希表的大小。当数据量小的时候,最好就是能够实现哈希表扩容的机制,即达到了哈希表当前长度的装填因子,我们就需要扩大哈希表大小,一般都是乘2。

下面,对上面这些观点进行一个总结,来设计一个效率尽可能高的哈希表大小

  1. 确保哈希表长度是一个素数,这样会产生最分散的余数,尽可能减少哈希冲突
  2. 设计好哈希表装填因子,一般控制在0.7-0.8
  3. 确认我们的数据规模,如果确认了数据规模,可以将数据规模除以装填因子,根据这个结果来寻找一个可行的哈希表大小
  4. 当数据规模可能会动态变化,不确定的时候,这个时候我们也需要能够根据数据规模的变化来动态给我们的哈希表扩容,所以一开始需要自己确定一个哈希表的大小作为基数,然后在此基础上达到装填因子规模时对哈希表进行扩容。

怎样设计哈希函数

哈希函数,是用来计算存储数据的哈希值的,根据存储数据的类型,可以设计不同的哈希函数。

一个好的哈希函数(让哈希表效率高的函数),一般都具备下面两个特点:

  1. 速度快(能够快速的计算一个key的哈希值)
  2. 能够将得到的哈希值均匀地分布在整个哈希表中,尽量不产生聚集

通常一个哈希函数具有下面的形式:哈希值 = 计算后的存储值 / 哈希表的大小

对于如果存储的数是整数这种类型,我们完全可以不用计算,直接将整数的值作为上式中计算后的存储值。

而对于非整数,如字符串这种类型,我们要设计一个相对较好的算法,来计算出它们的存储值。

下面介绍一些常见的字符串哈希算法,其他类型的数据都可以用相似的思路来设计适合自己的哈希算法。

字符串哈希算法

马上就能想到的算法:简单地将字符串中每个字符的ASCII码加起来

size_t stringHash(const string& key){
    size_t hashKey = 0;
 
    for(size_t i = 0; i < key.size(); ++i)
        hashKey += key[i];
    
    return hashKey;
}

用上面的方法可以很快地算出哈希值,但是如果表很大时,则函数就不能很好的分配。比如我的表的大小是10000,即我的数据规模大概是7000个左右(取装填因子为0.7),但是我的字符最多只有8个字符长,由于ASCII码最大值是127,因此hash函数计算出来的哈希值只能在0-1016之间取值,其中127 * 8 =1016,这就会有一种聚集的效果,这就不是我们上面提到的两点想要的,我们要尽可能地避免聚集。

这个方法可能是刚接触字符串哈希函数的人会马上想到的,但其实我们有很多的优秀的字符串哈希算法。

优秀的字符串哈希算法

BKDR哈希算法

size_t BKDR_hash(const string& key){
    size_t hashKey = 0;
    size_t seed = 131;    //也可以是31 131 1313 13131 131313
    for(size_t i = 0; i < key.size(); ++i)
        hashKey += hashKey * seed + key[i];
 
    return hashKey;
}

根据上面的算法,我们就可以根据结果得到非聚合的一些哈希值。

这个算法是效率很高的一个算法,其他的字符串算法可以看这里:字符串哈希算法,是人家总结的一篇文章,涵盖了当今很多的哈希算法。

怎样处理哈希冲突

所谓哈希冲突,就是两个key值经过哈希函数计算以后得到了相同的哈希值,而一个下标只能存放一个key,这就产生了哈希冲突。

产生了哈希冲突,我们就要解决。选择一个好的解决哈希冲突的方法,也是提高哈希表效率的关键。

一、开放定址法

当冲突发生时,通过查找哈希表的一个空位,将数据填入。

根据查找空位时,查找下标的增量取值方式,再细分为三种:

  1.线性探测法

线性探测空位。当数据通过哈希函数计算应该放在 i 这个位置,但是 i 这个位置已经有数据了,那么接下来就应该查看 i+1 位置是否空闲,再查看 i+2 位置,依次类推,直至找到空位置。

需要注意的是,当哈希表中接近被填满时,向表中插入数据就会效率很低,当hash表真的被填满了,这时候算法应该停止,在这之前应该对数组进行扩展,对hash表中的数据进行转移。

聚集现象:当哈希表越来越满时,这导致产生非常长的探测长度,后续的数据插入将会非常费时。通常数据超过三分之二满时性能下降严重,因此设计哈希表关键确保不会超过这个数据容量的一半,最多不超过三分之二。

  2.二次探测法

刚开始产生冲突的位置基础之上±n²(n从1开始,1,2,3.....)探测。

​​​​​​​

二次探测可以消除在线性探测中产生的聚集问题,但是二次探测还是会产生一种更明确更细的聚集:二次聚集。二次聚集是在二次探测的基础上产生的现象。

二次探测并不常用,解决聚集问题还是有一种更好的办法:再哈希法。

  3.再哈希法

再哈希法是在二次探测法的基础上将步长的改进:当第一次哈希发生冲突时,第二次哈希得到的结果是索引需要加的值。这样不同的key各自对应着不同的探测步长,发生聚集的几率大大降低。

缺点:每次冲突都要重新哈希,计算时间增加。

二、拉链法哈希桶

每个下标中存的都是一个链表,相同哈希值的key直接插入到链表。

这种方法的特点是表的大小和存储的数据数量差不多(大不了每个下标都只放一个节点,如果下标一样的都是放在同一下标的链表中,并没有占据新的下标),因此哈希桶的方法没有特别依赖于装载因子,哈希表快满时,它还是可以做到较好的效率,而开放地址法就需要保证装载因子。

拉链法的缺点:

  • 它需要稍微多一点的空间来存放元素,因为还要有一个指向下一个节点的指针。
  • 每次探测也要花费较多的时间,因为它需要间接引用指针,而不是直接访问元素。

但其实这些缺点是微不足道的,所以实际使用哈希时,一般都是用哈希桶来解决冲突(C++STL的hash_map用的就是拉链法)

手写拉链法的哈希表【C++】

C++11新特性:STL中的无序关联容器unordered_map的底层实现和用法

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值