数据结构与算法：hash（散列表）

最新推荐文章于 2024-04-21 23:33:22 发布

小明同学YYDS

最新推荐文章于 2024-04-21 23:33:22 发布

阅读量1.1k

点赞数

分类专栏：数据结构与算法文章标签： hash 散列表数据结构 hash算法 hashcode

本文链接：https://blog.csdn.net/maoyuanming0806/article/details/89286755

版权

13 篇文章 1 订阅

订阅专栏

介绍hash散列表数据结构的个人理解

概要

本文只用个人理解的语言来描述，因为与其copy或者照敲书上的文字，这样做不如贴上链接地址或者书名

散列表，散列，见文思意：把数据散开排列在一张数据表中
一种用于以常数、平均时间进行插入、删除和查找的技术。
一些crud操作需要进行元素间耦合操作比如排序的就没办法支持。再简单点说就是元素之间相互独立，无序。
结构就可以想象身份证号与一个人的对应表关系。只不过身份证表在中国来说巨大。
hash表结构数据如何存放是根据一个函数来确定的。即所有需要存放到hash表的数据都同通过这个函数计算出一个值，这个结果值就相当于这个数据住进hash表的门牌号，类比成身份证号也行。这个函数叫做hash函数
上述概述即表明得到一个hash结构需要几个东西：hash函数、装填因子、hash表。而决定一个hash结构性能好坏的比较重要的一个东西就是hash函数。原因后面重点说明
若两个数据经过hash函数算出来的结果相同，这就叫哈希冲突。
解决hash冲突的方案最简单的两种：分离链接法、开放定址法

一个前提1：任何计算都需要消耗时间和空间，这是设计一个算法（函数）需要考量的

这里用数学的取模11运算来作最简单的hash函数来说明，公式：hashcode = x % 3；

这里取模3，为什么？假如我们不知道存入hash表个数，那么取模数应该是一个素数，这样可以减少hash冲突，这个能明白吧。然后实际上素数应该越大越好，但是我说过的前提1是需要考虑的，所以这里就暂时用3来说明问题。
当然如果知道了存入数量，那取模数量大小就可以了。

假如我们要存入1~5的数
经过函数计算结果：

那他们存入hash表如下（根据结果作为key，数据放到value中）：如下发生了hash冲突，1，4放到了key=1的位置，2，5放到了key=2的位置。

以下说明经查阅HashSet结构的contains方法实现的方式。

如果我们要查询值3是否在这个hash中时，经过hash函数得到key=0，然后发现hash表中有key=0的key，就说明3存在。
那当我们要查询值为7是否在这个hash中时，也是经过这个hash函数先得到key=1，然后发现有key=1的key，就说明7存在。实际上7不存在，这就是hash冲突带来的问题

ok，以上就说明了hash函数在构造hash结构和对hash结构操作时的用法

如上一节演绎过程，取模3的hash函数对于只存3个数，其实没有任何问题。但是如果需要存超过3个数，那么就发生hash冲突，当然可以解决，后面会介绍解决方式。
发生了hash冲突，就会导致原本常数耗时的对hash结构的crud操作会变得充满不确定性；对hash结构大小也会影响其改变（常用解决hash冲突的其中一种方式就需要扩展空间，而此过程将会较大影响hash性能，包括时间和空间）
并且有如前提1所述，函数运行有耗时有耗空间，这也会影响对hash结构的操作性能
hash函数还有一个特点就是一经确定，就不能改变，否则之前所有的数据都需要重新分配空间并且只能手动

发生hash冲突使用分离链接法将会增加空间使用

核心思想：尝试另外一些单元，知道找出空的单元的算法。目的是尽可能让所有的数据都一一对应放入表内

根据这个核心思想需要一个探测方案，也就是探测函数。这里就是f(i)=i。表示当前位置冲突了，我就往后找空单元

案例：还是上述的hashcode = x % 3；存1，2，3，4，5

1，2，3分别存入key为1，2，0位置
存4时由于经过hash函数key=1，且hash表中1位置已经被占了，再根据探测函数：找下一个位置是key=2，发现又被占了；就继续找下一个位置key=3，发现是空单元就可以存入。
存5时经过hash函数key=2，且hash表中2的位置已经被占了，再根据探测函数：找下一个位置是key=3，发现又被占了；就继续找下一个位置key=4，发现空单元就可以存入。