数据结构(55) 散列表（哈希表，hash table，hash map）

应该注意到，任何设计出来的散列函数都不可能绝对地避免冲突。为此，必须考虑在发生冲突时应该如何处理，即为产生冲突的关键字寻找下一个“空”的Hash地址。用Hi表示处理冲突中第i次探测得到的散列地址，假设得到的另一个散列地址H1仍然发生冲突，只得继续求下一个地址H2，以此类推，直到Hk不发生冲突为止，则Hk为关键字在表中的地址。

4.1、开放定址法

所谓开放定址法，是指可存放新表项的空闲地址既可向它的同义词表项开放，又向它的非同义词表项开放。其数学递推公式为

式中，H(key)为散列函数：i=0,1,2,...,k（k≤m-1）；m表示散列表表长；di为增量序列。

取定某一增量序列后，对应的处理方法就是确定的。通常有以下4种取法：

4.1.1、线性探测法

当di = 0,1,2,...,m-1时，称为线性探测法，这种方法的特点是：冲突发生时，顺序查看表中下一个单元（探测到表尾地址m-1时，下一个探测地址是表首地址0），直到找出一个空闲单元（当表未填满时一定能找到一个空闲单元）或查遍全表。

线性探测法可能使第i个散列地址的同义词存入第i+1个散列地址，这样本应存入第i+1个散列地址的元素就争夺第i+2个散列地址的元素的地址......从而造成大量元素在相邻的散列地址上“聚集”（或堆积）起来，大大降低了查找效率。

4.1.2、平方探测法

当di= $0^{2},1^{2},-1^{2},2^{2},-2^{2},...,k^{2},-k^{2}$ 时，称为平方探测法，其中k≤m/2，散列表长度m必须是一个可以表示为4k+3的素数（如果散列表长度不是4k+3的素数就有可能有地址探测不到）

平方探测法是一种较好的处理冲突的方法，可以避免出现“堆积”问题，它的缺点是不能探测到散列表上的所有单元，但至少能探测到一半单元。

4.1.3、再散列法

当di=Hash2(key)时，称为再散列法，又称双散列法。需要使用两个散列函数，当通过第一个散列函数H(key)得到的地址发生冲突时，则利用第二个散列函数Hash2(key)计算该关键字的地址增量。它的具体散列函数形式如下：

初始探测位置H0=H(key)%m。i是冲突的次数，初始为0.在再散列法中，最多经过m-1次探测就会遍历表中所有的位置，回到H0位置。

4.1.4、伪随机序列法

当di = 伪随机数序列时，称为伪随机序列法。

注意：在开放地址的情形下，不能随便删除物理表中的已有元素，因为若删除元素，则会截断其他具有相同散列地址的元素的查找地址。因此，要删除一个元素时，可给它做一个删除标记，进行逻辑删除。但这样做的副作用是：执行多次删除后，表面看起来散列表很满，实际上有许多位置未利用，因此需要定期维护散列表，要把删除标记的元素物理删除。

4.2、拉链法（链接法，chaining）

显然，对于不同的关键字可能会通过散列函数映射到同一地址，为了避免非同义词发生冲突，可以把所有的同义词存储在一个线性链表中，这个线性链表由其散列地址唯一标识。假设散列地址为i的同义词链表的头指针存放在散列表的第i个单元中，因而查找、插入和删除操作主要在同义词链中进行。拉链法适用于经常进行插入和删除的情况

关键字序列为{19,14,23,01,68,20,84,27,55,11,10,59}，散列函数H(key) = key%13，用拉链法处理冲突，建立的表如上图所示。

4.3、完美哈希

哈希的基本缺陷，即使构造了全域哈希，还是不一定能解决不好的键集输入的问题，能不能找到一个完美的解决方案呢？能不能保证在任何情况下查找的复杂度都在O(1)呢？

完美哈希函数（Perfect Hash Function，简称PHF）就是没有冲突的哈希函数，也就是，函数H将N个KEY值映射到M个整数上，这里 M>=N ，而且，对于任而且，对于任意的 KEY1 ，KEY2 ，H( KEY1 ) != H( KEY2 ) ，并且，如果 M == N ，则 H 是最小完美哈希函数（Minimal Perfect Hash Function，简称MPHF）。

完美哈希的思想就是采用两级的框架，每一级上都用全域哈希

完美哈希的结构如上图。第一级和拉链法非常相似，只是发生冲突后不再使用的是一个链表来解决冲突，而是使用一个新的哈希表。

后面那个哈希结构，我们可以看到哈希表的前端存储了一些哈希表的基本性质：m 哈希表槽数；a,b 全域哈希函数要确定的两个值(一般是随机选然后确定下来的)，后面跟着哈希表。

为了保证不冲突，每个二级哈希表的数量是第一级映射到这个槽中元素个数的平方，这样可以保证整个哈希表非常的稀疏。

这种⼆次依赖关系看上去可能使得总体存储需求很⼤，但通过适当地选择第⼀次哈希函数，预期使⽤的的总存储空间仍为 O(n)。

如果关键字的数量 n 等于槽的数量 m ，则该哈希函数称为最⼩完美哈希函数（Minimal Perfect Hash Function）。

5、散列表查找

散列表的查找过程与构造散列表的过程基本一致。对于一个给定的关键字key，根据散列函数可以计算出其散列地址，执行步骤如下：

初始化：Addr = Hash(key)；

① 检测查找表中地址为Addr的位置上是否有记录，若无记录，返回查找失败；若有记录，比较它与key的值，若相等，则返回查找成功标志，否则执行步骤②

② 用给定的处理冲突方法计算“下一个散列地址”，并把Addr置为此地址，转入步骤①

例如，关键字序列{19,14,23,01,68,20,84,27,55,11,10,79}按散列函数H(key) = key%13和线性探测处理冲突构造所得的散列表L如下所示。

给定值84的查找过程为：首先求得散列地址H(84)=6，因L[6]不空且L[6]≠84，则找第一次冲突处理后的地址H1=(6+1)%16=7,而L[7]不空且L[7]≠84，则找第二次冲突处理后的地址H2=(6+2)%16=8，L[8]不为空且L[8]=84,查找成功，返回记录在表中的序号8。

给定值38的查找过程为：先求散列地址H(38)=12，L[12]不为空且L[12]≠38，则找下一地址H1=(12+1)%16=13,由于L[13]是空记录，故表中不存在关键字为38的记录。

查找个关键字的比较次数如下图所示：

平均查找长度ASL=(1*6+3*3+4+9)/12 = 2.5

对同一组关键字，设定相同的散列函数，则不同的处理冲突的方法得到的散列表不同，它们的平均查找长度也不同。

6、散列表的查找过程的性能分析

从散列表的查找过程可见：

（1）虽然散列表在关键字与记录的存储位置之间发生了直接映射，但由于“冲突”的产生。使得散列表的查找过程仍然是一个给定值和关键字进行比较的过程。因此，仍需要以平均查找长度作为衡量散列表的查找效率的度量

（2）散列表的查找效率取决于三个因素：散列函数、处理冲突的方法和负载因子。

负载因子。散列表的负载因子一般记为α，定义为一个表的装满程度，即

散列表的平均查找长度依赖于散列表的负载因子α，而不是直接依赖于n或m。直观地看，α越大，表示填装的记录越“满”，发生冲突的可能性越大，反之发生冲突的可能性越小。

_李白_

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
数据结构(55) 散列表（哈希表，hash table，hash map）

目录1、散列表的基本概念2、散列函数的构造方法3、常用的散列函数3.1、直接定址法3.2、除留余数法3.3、数字分析法3.4、平方取中法4、处理冲突的办法4.1、开放定址法4.2、拉链法（链接法，chaining）5、散列表查找6、散列表的查找过程的性能分析1、散列表的基本概念在前面介绍的线性表和树表的查找中，记录在表中的位置和记录的关键字之间不存在确定关系，因此，在这些表中查找记录时需进行一些列的关键字比较。这类查找方法建立在“比较”的基础上，查找的
复制链接

扫一扫

专栏目录