算法设计与分析——散列表/哈希表（Hash Table）：完全散列

von Neumann

已于 2022-09-23 13:25:08 修改

阅读量1.6w

点赞数 4

分类专栏：算法设计与分析文章标签：算法算法导论数据结构散列表哈希表

于 2021-08-08 17:13:45 首次发布

本文链接：https://blog.csdn.net/hy592070616/article/details/119517018

版权

算法设计与分析专栏收录该内容

49 篇文章 54 订阅

订阅专栏

使用散列技术通常是个好的选择，不仅是因为它有优异的平均情况性能，而且当关键字集合是静态时，散列技术也能提供出色的最坏情况性能。所谓静态，就是指一旦各关键字存入表中，关键字集合就不再变化了。一些应用存在着天然的静态关键字集合，如程序设计语言中的保留字集合，或者CD-ROM上的文件名集合。一种散列方法称为完全散列，如果该方法进行查找时，能在最坏情况下用 $O (1)$ 次访存完成。

我们采用两级的散列方法来设计完全散列方案，在每级上都使用全域散列。下图描述了该方法：

第一级与带链接的散列表基本上是一样的：利用从某一全域散列函数簇中仔细选出的一个散列函数 $h$ ，将 $n$ 个关键字散列到 $m$ 个槽中。

然而，我们采用了一个较小的二次散列表 $S_j$ 及相关的散列函数 $h_j$ ，而不是将散列到槽 $j$ 中的所有关键字建立一个链表。利用精心选择的散列函数 $h_j$ ，可以确保在第二级上不出现冲突。

但是，为了确保在第二级上不出现冲突，需要让散列表 $S_j$ 的大小 $m_j$ 为散列到槽 $j$ 中的关键字数 $n_j$ 的平方。尽管 $m$ 对 $n$ 的这种二次依赖看上去可能使得总体存储需求很大，但我们会在后面说明，通过适当地选择第一级散列函数，可以将预期使用的总体存储空间限制为 $O (n)$ 。

我们采用的散列函数是《算法设计与分析——散列表[哈希表]（四）：散列函数》中的全域散列函数类。第一级散列函数选自类 $m$ ，其中 $p$ 是一个比任何关键字值都要大的素数。那些散列到槽 $j$ 中的关键字通过利用一个从类 $\mathcal{H}_{p,m_j}$ 中选出的散列函数 $h_j$ ，被重新散列到一个大小为 $m_j$ 的二次散列表 $S_j$ 中。

下面分两步进行。首先，要确定如何才能保证第二级散列表中不发生冲突。其次，要说明使用总体存储空间的期望数为 $O (n)$ ，这里包括主散列表和所有的二级散列表所占的空间。

如果从一个全域散列函数类中随机选出散列函数 $h$ ，将 $n$ 个关键字存储在一个大小为 $m=n^2$ 的散列表中，那么表中出现冲突的概率小于 $\frac{1}{2}$ 。

上述引用所描述的情形（即 $m=n^2$ ）中，对于一个从 $\mathcal{H}$ 中随机选出的散列函数 $h$ ，较有可能不发生冲突。给定待散列的包含 $n$ 个关键字的集合 $K$ （注意 $K$ 是静态的），只需几次随机的尝试，就能比较容易地找出一个没有冲突的散列函数 $h$ 。

但当 $n$ 比较大时，一个大小为 $m=n^2$ 的散列表还是很大的。因此，我们采用两级散列方法，并利用上述的做法，对每个槽中的关键字仅进行一次散列。一个外层的（或称为第一级的）散列函数 $h$ 用于将各关键字散列到 $m = n$ 个槽中。那么，如果有 $n_j$ 个关键字被散列到了槽 $j$ 中，可以用一个大小为 $m_j=n_j^2$ 的二级散列表 $S$ 来提供无冲突的常数时间查找。