哈希表简介
哈希表是一种使用哈希函数组织数据的数据结构,它支持快速插入和搜索。
哈希表原理
哈希表(又称散列表)的原理为:借助 哈希函数,将键映射到存储桶地址。更确切地说,首先开辟一定长度的,具有连续物理地址的桶数组;当我们插入一个新的键时,哈希函数将决定该键应该分配到哪个桶中,并将该键存储在相应的桶中;当我们想要搜索一个键时,哈希表将使用哈希函数来找到对应的桶,并在该桶中进行搜索。
示例
在示例中,我们使用 y = x % 5 作为哈希函数,来完成插入和搜索策略。
1. 插入:我们通过哈希函数解析键,将它们映射到相应的桶中。
例如,根据哈希函数,1987 将分配给桶 2,而 24 分配给桶 4。
2. 搜索:我们通过哈希函数解析键,得到桶地址,然后在该存储桶中搜索。
如果我们搜索 1987,我们将使用哈希函数将 1987 映射到 2。因此我们在桶 2 中搜索,我们在那个桶中成功找到了 1987。
例如,如果我们搜索 23,将映射 23 到 3,并在桶 3 中搜索。我们发现 23 不在桶 3 中,这意味着 23 不在哈希表中。
注意到键 1987 和 2 被映射到了同一个桶中,我们称之为哈希冲突,哈希冲突与哈希函数有关,但又难以避免。
冲突解决
一般情况下,哈希函数会起到压缩键的地址空间的作用,设键的地址空间为 S,桶的地址空间为 T,则有 S≫T。
因此,经过映射之后,不同的数据会不可避免地分配到同一个桶中,这时便产生了冲突。例如,在哈希函数 y = x % 5 中,1987 和 2 都分配给了桶 2,这是一个冲突。
为了避免哈希冲突,我们简要介绍几种解决冲突的办法。
线性试探法
线性试探法属于开放定址法的一种,除此之外,开放定址法还包括二次探测法、双重哈希法等。
所谓线性试探法,就是当插入键 key 时,如果发现桶单元 bucket[hash(key)] 已经被占用,则向下线性寻找,直到找到可以使用的空桶。具体说来,经过第 i 次试探之后,桶单元应为:
bucket[(hash(key)+i) mod M], i=1,2,3…
例如对于键的集合为 {8, 9, 21, 17, 34, 21, 4},哈希函数为 y = x % 8,集合中的前三个数 8, 9, 21,它们分别映射到 0, 1, 5 号桶中。
而对于第四个数 17,它本应映射到 1 号桶中,由于 1 号桶中已经保存了 9,因此将 17 保存在下一个空桶—— 2 号桶中。同理,34 余数为 2,会保存在 3 号桶中。
当 查找 某个键时,首先会通过哈希函数计算出桶的地址,然后比较该桶中保存的值是否为该键,如果不是,则继续向下寻找。如果查找到末尾,则会从头开始查找。
而 删除 某个键时,为了避免查找过程中出现信息丢失,会将删除位置标记为 deleted,这样当进行线性查找时,遇到 deleted 会继续向下查找而不会中断。
链地址法
解决冲突的另一种办法是将桶内产生冲突的键串联成一个链表。仍以前一个方法中的冲突为例,实现方式如下图所示。
与线性探测法类似,发生冲突时,由于都需要进行线性查找,因此会导致查找的成本增加。
再哈希法
再哈希法比较典型的应用是双重哈希法,即发生冲突时,通过使用另一个哈希函数来避免冲突。不难想到,另一个哈希函数在构造时,需要具备一些约束条件才能避免再次冲突。
然而,双重哈希法同样存在一些问题:
(1)与线性试探法相比,双重哈希法会消耗较多的时间。
(2)在双重哈希法中,删除会使问题变复杂,如果逻辑删除数量太多,则应重新构造哈希表。
公共溢出区法
顾名思义,公共溢出区法就是建立另一个哈希表 dict_overflow 作为公共溢出区,当发成冲突时则将该键保存在该哈希表中。
如图所示,若查找的键发生冲突,则在公共溢出区进行线性查找。