hash表

最新推荐文章于 2021-08-27 10:56:05 发布

tm_wb

最新推荐文章于 2021-08-27 10:56:05 发布

阅读量745

点赞数

分类专栏：算法和数据结构文章标签：存储

本文链接：https://blog.csdn.net/tm_wb/article/details/6321814

版权

算法和数据结构专栏收录该内容

2 篇文章 0 订阅

订阅专栏

hash 表

hash 表是使用 O(1) 时间进行数据的插入删除和查找，但是 hash 表不保证表中数据的有序性，这样在 hash 表中查找最大数据或者最小数据的时间是 O(N) 。

1 寻址和 hash 函数

理想状态下 hash 足够大，每一数据保存在一个 hash 存储单元内，这样对于插入删除和查找某一个数据就可以直接得到。但是现实情况下 hash 表不可能无限大，而且理论上保存的数据的个数是没有限制的，这样保存的数据的数量就远远大于 hash 表的存储单元的数量。

为了实现在 O(1) 内对数据进行插入删除和查找，就必须将一个数据映射到 hash 表中的固定位置，这个映射函数就是 hash 函数。 Hash 函数通过对数据进行计算得到一个在 hash 表中的位置地址。

图 1.1 理想的 hash 表

要选择较好的 hash 函数，以及 hash 表存储单元的数量，这样才能使保存在 hash 表中的数据均匀分布。

理想状态不太可能实现，由于存储的数据数量远远大于 hash 表存储单元的数量，所以再好的 hash 函数也可能使不同的数据得到相同的映射位置，这就造成了冲突。但是好的 hash 函数可以将这种冲突降到最低。

2 分离链接

解决这种冲突的第一种方法是借助链表来实现，就是将数据实际存放在与 hash 表存储单元相链接的链表中，而不是 hash 的存储单元中。

图 2.1 分离链表

当产生冲突的时候，将两个数据都链接在同一 hash 存储单元保存的链表中。当一个存储单元保存的链表中有多个数据的时候，对于链表后面的数据的查找添加和删除就是不是严格意义上的 O(1) 了。一个好的 hash 函数可以使得这个链表很短。最坏情况下，当所有的数据都保存在一个 hash 单元指定的链表中的时候，那么这个 hash 就和链表一样了。

3 开放地址

使用开放地址方法解决冲突的时候，数据仍然保存在 hash 表的存储单元中，但是当冲突发生的时候，要再次计算新的地址。

常用的开放地址法是线性探查，就是当对一个数据进行插入删除或者查找的时候，通过 hash 函数计算，发现这个位置不是要找的数据，这时候就检查下一个存储单元，一直找到要操作的数据为止。

除了线性探查外还有二次探查，再 hash 等等方法，都是当一次计算得到的位置不是要找到的数据的时候，怎样再次确定新的位置。

4 完全 hash 表

采用分离链表的方式解决冲突的时候，当多个数据被映射到一个地址的时候，它们就形成了一个链表，要操作这其中的一个数据，那么就必须在这个链表中进行操作。如果 hash 函数选择的好的话，链表会很短，这样的操作近似 O(1) ，但并不是精确的等于 O(1) ，它与链表的长度有关。对于数据的访问的最坏情况的访问也是 O(1) 的 hash 叫做完全 hash 表。

这样的 hash 表是一个两级的 hash 表，第一级的 hash 与使用分离链接方法的 hash 一样，但是 hash 存储单元中指向的不是一个链表，而是另一个 hash 表。