数据结构 - 哈希表（散列表）

最新推荐文章于 2024-09-09 17:42:43 发布

码上生花

最新推荐文章于 2024-09-09 17:42:43 发布

阅读量3.2k

点赞数 3

分类专栏：数据结构与算法文章标签：算法

本文链接：https://blog.csdn.net/gghhb12/article/details/124362923

版权

数据结构与算法专栏收录该内容

31 篇文章 0 订阅

订阅专栏

哈希表是一种高效的数据结构，通过哈希函数将键映射到数组中，实现快速查找。哈希冲突是不可避免的，常见的解决方法包括开放寻址法和分离链接法。开放寻址法如线性探测和平方探测，而分离链接法则使用链表解决冲突。再散列是当表过满时，创建新表重新散列的过程。哈希函数设计精妙能降低冲突率，但无法完全避免冲突。

摘要由CSDN通过智能技术生成

一、概念

散列表（Hash table，也叫哈希表），是根据键（Key）而直接访问在内存存储位置的数据结构。也就是说，它通过计算一个关于键值的函数，将所需查询的数据映射到表中一个位置来访问记录，这加快了查找速度。这个映射函数称做散列函数，存放记录的数组称做散列表。
散列表的实现常常叫做散列（hashing）。散列是一种以常数平均时间执行插入、删除、和查找的技术。

顺序结构以及二叉搜索树中，元素关键码与其存储位置之间没有对应的关系，因此在查找一个元素时，必须要经过关键码的多次比较。顺序查找时间复杂度为O(N)，二叉搜索树中为树的高度，即O(log2N)，搜索的效率取决于搜索过程中元素的比较次数。

理想的搜索方法：可以不经过任何比较，一次直接从表中得到要搜索的元素。如果构造一种存储结构，通过某种函数(hashFunc)使元素的存储位置与它的关键码之间能够建立一一映射的关系，那么在查找时通过该函数可以很快找到该元素。

实现哈希表我们可以采用两种方法：

数组+链表
数组+二叉树

哈希表通常是基于数组实现的，但是相对于数组，它存在更多优势：

哈希表可以提供非常快速的插入-删除-查找操作。
无论多少数据，插入和删除值都只需接近常量的时间，即 O(1) 的时间复杂度。实际上，只需要几个机器指令即可完成。
哈希表的速度比树还要快，基本可以瞬间查找到想要的元素。
哈希表相对于树来说编码要简单得多。

哈希表同样存在不足之处：

哈希表中的数据是没有顺序的，所以不能以一种固定的方式（比如从小到大）来遍历其中的元素。
通常情况下，哈希表中的 key 是不允许重复的，不能放置相同的 key，用于保存不同的元素。

二、散列（哈希）函数

1、定义
将每个关键字映射从0到TableSize-1这个范围中的某个数。并且放到适当的单元中。这个映射就叫做散列函数。

例如：数据集合{1，7，6，4，5，9}；
哈希函数设置为：hash(key) = key % capacity; capacity为存储元素底层空间总的大小。

其实哈希表的底层是一个数组，有些书上也称之为哈希桶

哈希函数中每次取余后的值为我们所要在哈希表中存储的位置，例如1就在1%10=1的位置处存放这个值即可.取1的时候也直接在1下标处取即可，所以在哈希表中增删查改的时间复杂度都能达到O(1)
在这里插入图片描述
用该方法进行搜索不必进行多次关键码的比较，因此搜索的速度比较快但是此时就要注意一个问题了，假设此时我们要存储44这个元素，发现44%10=4，44同样也可以放到下标为4的这个位置，但是我们发现4这个下标位置处其实是有元素的，此时就发生了哈希冲突，所以当发生了哈希冲突的时候，我们就需要做两件事情，第一是在冲突发生前避免哈希冲突，第二点是如果发生了哈希冲突就要去解决哈希冲突.

2、常见的哈希函数
1.直接定制法–(常用)
取关键字的某个线性函数为散列地址：Hash（Key）= A*Key + B
优点：简单、均匀缺点：需要事先知道关键字的分布情况
使用场景：适合查找比较小且连续的情况
面试题：字符串中第一个只出现一次字符
2.除留余数法–(最常用的方法)
设散列表中允许的地址数为m，取一个不大于m，但最接近或者等于m的质数p作为除数，按照哈希函数：Hash(key) = key% p(p<=m),将关键码转换成哈希地址
3.平方取中法–(了解)
假设关键字为1234，对它平方就是1522756，抽取中间的3位227作为哈希地址；再比如关键字为4321，对它平方就是18671041，抽取中间的3位671(或710)作为哈希地址。
平方取中法比较适合：不知道关键字的分布，而位数又不是很大的情况
4.折叠法–(了解)
折叠法是将关键字从左到右分割成位数相等的几部分(最后一部分位数可以短些)，然后将这几部分叠加求和，并按散列表表长，取后几位作为散列地址。
折叠法适合事先不需要知道关键字的分布，适合关键字位数比较多的情况
5.随机数法–(了解)
选择一个随机函数，取关键字的随机函数值为它的哈希地址，即H(key) = random(key),其中random为随机数函数。
通常应用于关键字长度不等时采用此法
6.数学分析法–(了解)
设有n个d位数，每一位可能有r种不同的符号，这r种不同的符号在各位上出现的频率不一定相同，可能在某些位上分布比较均匀，每种符号出现的机会均等，在某些位上分布不均匀只有某几种符号经常出现。可根据散列表的大小，选择其中各种符号分布均匀的若干位作为散列地址。

三、哈希冲突

不同的关键码，使用一个哈希函数，哈希到了同一个位置，这种现象称为哈希冲突或者哈希碰撞
一般来说我们都想去避免哈希冲突，但是冲突是无法全部避免的，最终我们仍要去解决哈希冲突，先来看如何避免哈希冲突：

1、哈希冲突的避免（两种方式）

（1）设计精妙的哈希函数
其实当数据的个数大于我们数组长度的时候，就一定会发生哈希冲突，冲突的发生是必然的，但我们能做的应该是尽量的降低冲突率。比如通常保证表的大小是素数，和射击精妙的哈希函数。

在这里插入图片描述

假设要存储某家公司员工登记表，如果用手机号作为关键字，那么极有可能前7位都是相同的，那么我们可以选择后面的四位作为散列地址，如果这样的抽取工作还容易出现冲突，还可以对抽取出来的数字进行反转(如1234改成4321)、右环位移(如1234改成4123)、左环移位、前两数与后两数叠加(如1234改成12+34=46)等方法。
数字分析法通常适合处理关键字位数比较大的情况，如果事先知道关键字的分布且关键字的若干位分布较均匀的情况

注意：哈希函数设计的越精妙，产生哈希冲突的可能性就越低，但是无法避免哈希冲突

（2）负载因子（装填因子）调节
在这里插入图片描述
负载因子和冲突率的关系粗略演示：

已知哈希表中已有的关键字个数是不可变的，那么为了我们的负载因子变小，我们能调整的就只有哈希表中的数组的大小了，也就是我们散列表的长度，散列表长度越大，负载因子越小.

2、哈希冲突的解决

（1）分离链接法
其做法是将散列到同一值的所有元素保留在一个表中。

在这里插入图片描述

这是一种数组+链表的组合方式。除了链表外，任何方案都有可能用来解决冲突现象，比如一棵二叉查找树甚至另外一个散列表均可以胜任。

（2）开放定址法
在开放定址法中，如果有冲突发生，那么就要尝试选择另外的单元，直到找出空的单元为止。更一般的，单元h_0(X),h_1(X),h_2(X),……，相继试选，其中h_i(X) = (Hash(X)+F(i)) mod TableSize,且F(0) = 0;函数F是冲突解决方法。因为所有的数据都要置入表内，所以开放定址散列法所需要的表比分离链接法用的表大。一般来说，开放定址法的装填因子应该低于0.5。现在我们就来考虑三个通常冲突解决方法。

线形探测法
在线形探测法中，函数F是i的线性函数，典型类型是F(i) = i。这相当于逐个探测单元（必要时可以绕回）以查找出一个空单元。
例如将关键字{89,18,49,58,69}插入到一个散列表的情况：

	插入89	插入18	插入49	插入58	插入69
0			49	49	49
1				58	58
2					69
3
4
5
6
7
8		18	18	18	18
9	89	89	89	89	89

第一个冲突关键字在49时产生，它被放入下一个空闲地址，即地址0，该地址是开放的。关键字58依次和18，89，49发生冲突后，试选三次后才能找到一个空单元。对于69的处理也是类似的。只要表足够大总能找到一个自由单元。但是花费的时间是相当多的。更糟糕的是，即使表相对较空，这样占据的单元也会开始形成一些区块，其结果称为一次聚集，于是散列到区块中的任何关键字都需要多次试选单元才能解决冲突，然后该关键字被添加到相应的区块中。

平方探测法
平方探测法是消除线形探测中一次聚集问题的冲突解决办法。平方探测就是冲突函数为二次函数的探测方法。流行的选择是F(i) = i^2;

	插入89	插入18	插入49	插入58	插入69
0			49	49	49
1
2				58	58
3					69
4
5
6
7
8		18	18	18	18
9	89	89	89	89	89

当49和89产生冲突时，其下一位置为下一单元，该单元是空的，因此49就被放在那里。此后58在位置8处发生了冲突，其后相邻的单元经探测得知发生了另外的冲突。下一个探测单元在距位置8为2^2 = 4远处，这个单元是个空单元，因此关键字58就被放在单元2处。对于关键字啊69的处理过程也是一样的。

定理：如果使用平方探测，且表的大小为素数，那么当表至少有一半是空的时候，总能够插入一个新的元素。

虽然平方探测排除了一次聚集，但是散列到同一位置上的那些元素将探测相同的备选单元，这叫二次聚集。

双散列
双散列可以排除二次聚集问题，不过要花费另外的一些乘法和除法形销。对于双散列，一种流行的选择是F(i) = i·hash_2(X)。这个公式是说，我们将第二个散列函数应用到X并在距离hash_2(X), 2hash_2(X)等处检测。hash_2(X)选择的不好将是灾难性的。例如，若把99插入到前面的例子的输入中，则通常的选择是hash_2(X) = X%9;将不起作用。因此函数不一定要算的0值。另外，保证所有的单元都能被探测到也是很重要的。诸如hash_2(X) = R - (X%R)这样的函数将起到良好的作用，其中R为小于TableSize的素数。

	插入89	插入18	插入49	插入58	插入69
0					69
1
2
3				58	58
4
5
6			49	49	49
7
8		18	18	18	18
9	89	89	89	89	89

第一个冲突发生在插入49时。hash_2(49) = 7-0 =7;故49会被插入到6的位置。hash_2(58) = 7-2 = 5,于是58被插入到位置3。最后69产生冲突，从而被插入到距离为hash_2(69) = 7-6 = 1的地方。

四、再散列

对于使用平方探测的开放地址散列法，如果表的元素填的太满的话，那么操作的运行时间将开始消耗过长，且Insert操作可能失败。这可能发生在有太多的移动和插入混合的场合。此时一种解决方案是建立另外一个大约两倍大的表（而且使用一个相关的新散列函数），扫描整个原始散列表，计算每个（未删除元素的新散列值并将其插入到新表中）。

例如，将元素13，15，24，6插入到大小为7的开放定址散列表中，散列函数是h(X) = X mod 7。
在这里插入图片描述
如果再将23插入后，将有70%的单元是满的。因为填的过满，所以我们建立一个新表，该表的大小之所以为17，是因为17是原表大小的两倍后的第一个素数。新的散列函数为h(X) = X mod 17。

整个操作就叫做再散列。