哈希表(重要)

最新推荐文章于 2024-09-28 15:23:18 发布

努力彪

最新推荐文章于 2024-09-28 15:23:18 发布

阅读量3.3k

点赞数 6

分类专栏：数据结构与算法文章标签：哈希算法

本文链接：https://blog.csdn.net/qq_41972686/article/details/122662516

版权

数据结构与算法专栏收录该内容

14 篇文章 1 订阅

订阅专栏

概念

顺序结构以及二叉搜索树中，元素关键码与其存储位置之间没有对应的关系，因此在查找一个元素时，必须要经过关键码的多次比较。顺序查找时间复杂度为O(N)，二叉搜索树中为树的高度，即O(log2N)，搜索的效率取决于搜索过程中元素的比较次数。

理想的搜索方法：可以不经过任何比较，一次直接从表中得到要搜索的元素。如果构造一种存储结构，通过某种函数(hashFunc)使元素的存储位置与它的关键码之间能够建立一一映射的关系，那么在查找时通过该函数可以很快找到该元素。
当向该结构中：

插入元素

根据待插入元素的关键码，以此函数计算出该元素的存储位置并按此位置进行存放

搜索元素

对元素的关键码进行同样的计算，把求得的函数值当做元素的存储位置，在结构中按此位置取元素比较，若关键码相等，则搜索成功
该方式即为哈希(散列)方法，哈希方法中使用的转换函数称为哈希(散列)函数，构造出来的结构称为哈希表(Hash Table)(或者称散列表)

例如：数据集合{1，7，6，4，5，9}；
哈希函数设置为：hash(key) = key % capacity; capacity为存储元素底层空间总的大小。

其实哈希表的底层是一个数组，有些书上也称之为哈希桶

哈希函数中每次取余后的值为我们所要在哈希表中存储的位置，例如1就在1%10=1的位置处存放这个值即可.取1的时候也直接在1下标处取即可，所以在哈希表中增删查改的时间复杂度都能达到O(1)
在这里插入图片描述
用该方法进行搜索不必进行多次关键码的比较，因此搜索的速度比较快 但是此时就要注意一个问题了，假设此时我们要存储44这个元素，发现44%10=4，44同样也可以放到下标为4的这个位置，但是我们发现4这个下标位置处其实是有元素的，此时就发生了哈希冲突，所以当发生了哈希冲突的时候，我们就需要做两件事情，第一是在冲突发生前避免哈希冲突，第二点是如果发生了哈希冲突就要去解决哈希冲突.
面试中也会经常去问你是如何解决哈希冲突的.

哈希冲突

概念

不同的关键码，使用一个哈希函数，哈希到了同一个位置，这种现象称为哈希冲突或者哈希碰撞
一般来说我们都想去避免哈希冲突，但是冲突是无法全部避免的，最终我们仍要去解决哈希冲突，先来看如何避免哈希冲突.

哈希冲突的避免（两种方式）

第一种方式：设计精妙的哈希函数

其实当数据的个数大于我们数组长度的时候，就一定会发生哈希冲突，冲突的发生是必然的，但我们能做的应该是尽量的降低冲突率。

哈希函数的设计

引起哈希冲突的一个原因可能是：**哈希函数设计不够合理。

哈希函数设计原则

哈希函数的定义域必须包括需要存储的全部关键码，而如果散列表允许有m个地址时，其值域必须在0到m-1 之间
哈希函数计算出来的地址能均匀分布在整个空间中
哈希函数应该比较简单

常见的哈希函数

1.直接定制法–(常用)
取关键字的某个线性函数为散列地址：Hash（Key）= A*Key + B 优点：简单、均匀缺点：需要事先知道关键字的分布情况使用场景：适合查找比较小且连续的情况面试题：字符串中第一个只出现一次字符
2.除留余数法--(最常用的方法)
设散列表中允许的地址数为m，取一个不大于m，但最接近或者等于m的质数p作为除数，按照哈希函数：
Hash(key) = key% p(p<=m),将关键码转换成哈希地址
3.平方取中法–(了解)
假设关键字为1234，对它平方就是1522756，抽取中间的3位227作为哈希地址；再比如关键字为4321，对它平方就是18671041，抽取中间的3位671(或710)作为哈希地址平方取中法比较适合：不知道关键字的分布，而位数又不是很大的情况
4.折叠法–(了解)
折叠法是将关键字从左到右分割成位数相等的几部分(最后一部分位数可以短些)，然后将这几部分叠加求和，并按散列表表长，取后几位作为散列地址。
折叠法适合事先不需要知道关键字的分布，适合关键字位数比较多的情况
5.随机数法–(了解)
选择一个随机函数，取关键字的随机函数值为它的哈希地址，即H(key) = random(key),其中random为随机数函数。
通常应用于关键字长度不等时采用此法
6.数学分析法–(了解)
设有n个d位数，每一位可能有r种不同的符号，这r种不同的符号在各位上出现的频率不一定相同，可能在某些位上分布比较均匀，每种符号出现的机会均等，在某些位上分布不均匀只有某几种符号经常出现。可根据散列表的大小，选择其中各种符号分布均匀的若干位作为散列地址。例如：
在这里插入图片描述
假设要存储某家公司员工登记表，如果用手机号作为关键字，那么极有可能前7位都是相同的，那么我们可以选择后面的四位作为散列地址，如果这样的抽取工作还容易出现冲突，还可以对抽取出来的数字进行反转(如1234改成4321)、右环位移(如1234改成4123)、左环移位、前两数与后两数叠加(如1234改成12+34=46)等方法。
数字分析法通常适合处理关键字位数比较大的情况，如果事先知道关键字的分布且关键字的若干位分布较均匀的情况
注意：哈希函数设计的越精妙，产生哈希冲突的可能性就越低，但是无法避免哈希冲突

第二种方式：负载因子调节(重点掌握)

在这里插入图片描述
负载因子和冲突率的关系粗略演示

可以看到的是，当我们想让冲突率越小的话，负载因子也要越来越小,
再来看之前的公式:

已知哈希表中已有的关键字个数是不可变的，那么为了我们的负载因子变小，我们能调整的就只有哈希表中的数组的大小了，也就是我们散列表的长度，散列表长度越大，负载因子越小.
另外我们之前所了解到的HashMap的底层耶斯==

哈希冲突的解决（两种方式）

解决哈希冲突两种常见的方法是：闭散列和开散列

闭散列

闭散列：也叫开放定址法，当发生哈希冲突时，如果哈希表未被装满，说明在哈希表中必然还有空位置，那么可以把key存放到冲突位置中的“下一个” 空位置中去。那如何寻找下一个空位置呢？有两种方法

方法1：线性探测

比如上面的场景，现在需要插入元素44，先通过哈希函数计算哈希地址，下标为4，因此44理论上应该插在该位置，但是该位置已经放了值为4的元素，即发生哈希冲突。

线性探测：从发生冲突的位置开始，依次向后探测，直到寻找到下一个空位置为止。

线性探测的插入操作

例如插入44的时候
通过哈希函数获取待插入元素在哈希表中的位置，44%10=4，此时4下标的位置有4这个元素，那么就直接从当前4下标的位置向后遍历去寻找空的位置将44这个元素插入进去,如下图所示此时插入到8这个位置.
在这里插入图片描述

总结：如果该位置中没有元素则直接插入新元素，如果该位置中有元素发生哈希冲突，使用线性探测找到下一个空位置，插入新元素

线性探测的删除操作

采用闭散列处理哈希冲突时，不能随便物理删除哈希表中已有的元素，若直接删除元素会影响其他元素的搜索。比如删除元素4，如果直接删除掉，44查找起来可能会受影响。因此线性探测采用标记的伪删除法来删除一个元素，就是标记一下4删除掉了，但是其实没有删除掉.

方法2：二次探测

线性探测的缺陷是产生冲突的数据堆积在一块，举个例子
我们现在要插入的不但有44，还有34，54，64
在这里插入图片描述
按照之前的线性探测，这几个数据分别本来都来插入到4下标位置处，只不过发生了哈希冲突，就依次往后寻找插入点，插入完毕后如下所示：

我们会发现冲突的元素全部都在一起了.
而我们的二次探测解决的问题就是不让我们冲突的元素挤在一起.
因此二次探测为了避免该问题，找下一个空位置的方法为：
在这里插入图片描述
这里我们解释一下这个公式：第一次发生冲突跳$1^{2}$个，第二次发生冲突跳$2^{2}$个，第三次发生冲突跳$3^{2}$个，依次往下递增，所以34作为我们的第一个发生冲突的，此时他所要去的下一个位置为(4+1)%10=5,也就是下标5处，44作为我们第二个发生冲突的，此时他所要去的下一个位置为(4+4)%10=8,也就是下标8处，54作为我们第三个发生冲突的，此时他所要去的下一个位置为(4+9)%10=3,也就是下标3处，我们会发现我们尽量将冲突的元素在散列表中散开.如下图所示：在这里插入图片描述
研究表明：当表的长度为质数且表装载因子a不超过0.5时，新的表项一定能够插入，而且任何一个位置都不会被探查两次。因此只要表中有一半的空位置，就不会存在表满的问题。在搜索时可以不考虑表装满的情况，但在插入时必须确保表的装载因子a不超过0.5，如果超出必须考虑增容。
因此：闭散列最大的缺陷就是空间利用率比较低，这也是哈希的缺陷。

开散列(非常重要)

开散列也是我们哈希表底层使用的方法，所以非常重要

开散列法又叫链地址法(开链法)，首先对关键码集合用散列函数计算散列地址，具有相同地址的关键码归于同一子集合，每一个子集合称为一个桶，各个桶中的元素通过一个单链表链接起来，各链表的头结点存储在哈希表中。

因为HashMap和HashSet的底部都是哈希桶，即一个数组，那么我们就拿HahMap来举例，看看其底层是怎么通过开散列的方式解决哈希冲突的：

首先我们知道开散列的方法是将具有相同地址的关键码(关键码就是要插入到HashMap中的数据)归到一个下标处，然后将这些具有相同地址的关键码通过单链表的形式串起来，然后将各链表的头结点存储在哈希表中，来看示意图：
假设此时我们创建了一个map对象后，向我们的map集合中放入两个键值对，键值对中存储的值分别为2，12，通过之前的哈希函数我们可以知道2%10=2,12%10=2(注意此处是通过键值对中的key来找到插入位置的),最终都会放到数组的2下标处。
在这里插入图片描述

此时需要注意的是，当2插入到我们的对应位置后，作为链表的头节点，然后12要插入到相同位置的时候，采取的是尾插法，这是jdk1.8开始规定的，并且需要注意的是，我们的链表当长度超过8的时候，这个链表会蜕变为红黑树

性能分析

哈希表的插入/删除/查找时间复杂度是 O(1)

和 java 类集的关系

1.HashMap 和 HashSet 即 java 中利用哈希表实现的 Map 和 Set
2.java 中使用的是哈希桶方式解决冲突的
3.java 会在冲突链表长度大于一定阈值后，将链表转变为搜索树（红黑树）
4.java 中计算哈希值实际上是调用的类的 hashCode 方法，进行 key 的相等性比较是调用 key 的 equals 方法。所以如果要用自定义类作为 HashMap 的 key 或者 HashSet 的值，必须覆写 hashCode 和 equals 方法，而且要做到 equals 相等的对象，hashCode 一定是一致的。