解决哈希冲突

哈希表简介

哈希表是一种使用哈希函数组织数据的数据结构,它支持快速插入和搜索。

哈希表原理

哈希表(又称散列表)的原理为:借助 哈希函数,将键映射到存储桶地址。更确切地说,首先开辟一定长度的,具有连续物理地址的桶数组;当我们插入一个新的键时,哈希函数将决定该键应该分配到哪个桶中,并将该键存储在相应的桶中;当我们想要搜索一个键时,哈希表将使用哈希函数来找到对应的桶,并在该桶中进行搜索。

示例

 

在示例中,我们使用 y = x % 5 作为哈希函数,来完成插入和搜索策略。

1. 插入:我们通过哈希函数解析键,将它们映射到相应的桶中。

        例如,根据哈希函数,1987 将分配给桶 2,而 24 分配给桶 4。
2. 搜索:我们通过哈希函数解析键,得到桶地址,然后在该存储桶中搜索。

        如果我们搜索 1987,我们将使用哈希函数将 1987 映射到 2。因此我们在桶 2 中搜索,我们在那个桶中成功找到了 1987。

例如,如果我们搜索 23,将映射 23 到 3,并在桶 3 中搜索。我们发现 23 不在桶 3 中,这意味着 23 不在哈希表中。

注意到键 1987 和 2 被映射到了同一个桶中,我们称之为哈希冲突,哈希冲突与哈希函数有关,但又难以避免。

冲突解决

一般情况下,哈希函数会起到压缩键的地址空间的作用,设键的地址空间为 S,桶的地址空间为 T,则有 S≫T。

 

因此,经过映射之后,不同的数据会不可避免地分配到同一个桶中,这时便产生了冲突。例如,在哈希函数 y = x % 5 中,1987 和 2 都分配给了桶 2,这是一个冲突。

为了避免哈希冲突,我们简要介绍几种解决冲突的办法。

线性试探法

线性试探法属于开放定址法的一种,除此之外,开放定址法还包括二次探测法、双重哈希法等。

所谓线性试探法,就是当插入键 key 时,如果发现桶单元 bucket[hash(key)] 已经被占用,则向下线性寻找,直到找到可以使用的空桶。具体说来,经过第 i 次试探之后,桶单元应为:
bucket[(hash(key)+i) mod M],  i=1,2,3…

例如对于键的集合为 {8, 9, 21, 17, 34, 21, 4},哈希函数为 y = x % 8,集合中的前三个数 8, 9, 21,它们分别映射到 0, 1, 5 号桶中。

而对于第四个数 17,它本应映射到 1 号桶中,由于 1 号桶中已经保存了 9,因此将 17 保存在下一个空桶—— 2 号桶中。同理,34 余数为 2,会保存在 3 号桶中。

 

查找 某个键时,首先会通过哈希函数计算出桶的地址,然后比较该桶中保存的值是否为该键,如果不是,则继续向下寻找。如果查找到末尾,则会从头开始查找。

删除 某个键时,为了避免查找过程中出现信息丢失,会将删除位置标记为 deleted,这样当进行线性查找时,遇到 deleted 会继续向下查找而不会中断。

 

链地址法

解决冲突的另一种办法是将桶内产生冲突的键串联成一个链表。仍以前一个方法中的冲突为例,实现方式如下图所示。

与线性探测法类似,发生冲突时,由于都需要进行线性查找,因此会导致查找的成本增加。

再哈希法

再哈希法比较典型的应用是双重哈希法,即发生冲突时,通过使用另一个哈希函数来避免冲突。不难想到,另一个哈希函数在构造时,需要具备一些约束条件才能避免再次冲突。

然而,双重哈希法同样存在一些问题:

(1)与线性试探法相比,双重哈希法会消耗较多的时间。

(2)在双重哈希法中,删除会使问题变复杂,如果逻辑删除数量太多,则应重新构造哈希表。

公共溢出区法

顾名思义,公共溢出区法就是建立另一个哈希表 dict_overflow 作为公共溢出区,当发成冲突时则将该键保存在该哈希表中。

如图所示,若查找的键发生冲突,则在公共溢出区进行线性查找。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值