数据结构 - 哈希表(散列表)

一、概念

散列表(Hash table,也叫哈希表),是根据键(Key)而直接访问在内存存储位置的数据结构。也就是说,它通过计算一个关于键值的函数,将所需查询的数据映射到表中一个位置来访问记录,这加快了查找速度。这个映射函数称做散列函数,存放记录的数组称做散列表。
散列表的实现常常叫做散列(hashing)。散列是一种以常数平均时间执行插入、删除、和查找的技术。

顺序结构以及二叉搜索树中,元素关键码与其存储位置之间没有对应的关系,因此在查找一个元素时,必须要经过关键码的多次比较。顺序查找时间复杂度为O(N),二叉搜索树中为树的高度,即O(log2N),搜索的效率取决于搜索过程中元素的比较次数。

理想的搜索方法:可以不经过任何比较,一次直接从表中得到要搜索的元素。如果构造一种存储结构,通过某种函数(hashFunc)使元素的存储位置与它的关键码之间能够建立一一映射的关系,那么在查找时通过该函数可以很快找到该元素。

实现哈希表我们可以采用两种方法:

  • 数组+链表
  • 数组+二叉树

哈希表通常是基于数组实现的,但是相对于数组,它存在更多优势:

  • 哈希表可以提供非常快速的 插入-删除-查找 操作。
  • 无论多少数据,插入和删除值都只需接近常量的时间,即 O(1) 的时间复杂度。实际上,只需要几个机器指令即可完成。
  • 哈希表的速度比树还要快,基本可以瞬间查找到想要的元素。
  • 哈希表相对于树来说编码要简单得多。

哈希表同样存在不足之处:

  • 哈希表中的数据是没有顺序的,所以不能以一种固定的方式(比如从小到大 )来遍历其中的元素。
  • 通常情况下,哈希表中的 key 是不允许重复的,不能放置相同的 key,用于保存不同的元素。

二、散列(哈希)函数

1、定义
将每个关键字映射从0到TableSize-1这个范围中的某个数。并且放到适当的单元中。这个映射就叫做散列函数。

例如:数据集合{1,7,6,4,5,9};
哈希函数设置为:hash(key) = key % capacity; capacity为存储元素底层空间总的大小。

其实哈希表的底层是一个数组,有些书上也称之为哈希桶

哈希函数中每次取余后的值为我们所要在哈希表中存储的位置,例如1就在1%10=1的位置处存放这个值即可.取1的时候也直接在1下标处取即可,所以在哈希表中增删查改的时间复杂度都能达到O(1)
在这里插入图片描述
用该方法进行搜索不必进行多次关键码的比较,因此搜索的速度比较快 但是此时就要注意一个问题了,假设此时我们要存储44这个元素,发现44%10=4,44同样也可以放到下标为4的这个位置,但是我们发现4这个下标位置处其实是有元素的,此时就发生了哈希冲突,所以当发生了哈希冲突的时候,我们就需要做两件事情,第一是在冲突发生前避免哈希冲突,第二点是如果发生了哈希冲突就要去解决哈希冲突.

2、常见的哈希函数
1.直接定制法–(常用)
取关键字的某个线性函数为散列地址:Hash(Key)= A*Key + B
优点:简单、均匀 缺点:需要事先知道关键字的分布情况
使用场景:适合查找比较小且连续的情况
面试题:字符串中第一个只出现一次字符
2.除留余数法–(最常用的方法)
设散列表中允许的地址数为m,取一个不大于m,但最接近或者等于m的质数p作为除数,按照哈希函数:Hash(key) = key% p(p<=m),将关键码转换成哈希地址
3.平方取中法–(了解)
假设关键字为1234,对它平方就是1522756,抽取中间的3位227作为哈希地址; 再比如关键字为4321,对它平方就是18671041,抽取中间的3位671(或710)作为哈希地址 。
平方取中法比较适合:不知道关键字的分布,而位数又不是很大的情况
4.折叠法–(了解)
折叠法是将关键字从左到右分割成位数相等的几部分(最后一部分位数可以短些),然后将这几部分叠加求和, 并按散列表表长,取后几位作为散列地址。
折叠法适合事先不需要知道关键字的分布,适合关键字位数比较多的情况
5.随机数法–(了解)
选择一个随机函数,取关键字的随机函数值为它的哈希地址,即H(key) = random(key),其中random为随机数函数。
通常应用于关键字长度不等时采用此法
6.数学分析法–(了解)
设有n个d位数,每一位可能有r种不同的符号,这r种不同的符号在各位上出现的频率不一定相同,可能在某 些位上分布比较均匀,每种符号出现的机会均等,在某些位上分布不均匀只有某几种符号经常出现。可根据 散列表的大小,选择其中各种符号分布均匀的若干位作为散列地址。

三、哈希冲突

不同的关键码,使用一个哈希函数,哈希到了同一个位置,这种现象称为哈希冲突或者哈希碰撞
一般来说我们都想去避免哈希冲突,但是冲突是无法全部避免的,最终我们仍要去解决哈希冲突,先来看如何避免哈希冲突:

1、哈希冲突的避免(两种方式)

(1)设计精妙的哈希函数
其实当数据的个数大于我们数组长度的时候,就一定会发生哈希冲突,冲突的发生是必然的,但我们能做的应该是尽量的降低冲突率。比如通常保证表的大小是素数,和射击精妙的哈希函数。

在这里插入图片描述

假设要存储某家公司员工登记表,如果用手机号作为关键字,那么极有可能前7位都是相同的,那么我们可以选择后面的四位作为散列地址,如果这样的抽取工作还容易出现 冲突,还可以对抽取出来的数字进行反转(如1234改成4321)、右环位移(如1234改成4123)、左环移位、前两数与后两数叠加(如1234改成12+34=46)等方 法。
数字分析法通常适合处理关键字位数比较大的情况,如果事先知道关键字的分布且关键字的若干位分布较均匀的情况

注意:哈希函数设计的越精妙,产生哈希冲突的可能性就越低,但是无法避免哈希冲突

(2)负载因子(装填因子)调节
在这里插入图片描述
负载因子和冲突率的关系粗略演示:
在这里插入图片描述
已知哈希表中已有的关键字个数是不可变的,那么为了我们的负载因子变小,我们能调整的就只有哈希表中的数组的大小了,也就是我们散列表的长度,散列表长度越大,负载因子越小.

2、哈希冲突的解决

(1)分离链接法
其做法是将散列到同一值的所有元素保留在一个表中。

在这里插入图片描述

这是一种数组+链表的组合方式。除了链表外,任何方案都有可能用来解决冲突现象,比如一棵二叉查找树甚至另外一个散列表均可以胜任。

(2)开放定址法
在开放定址法中,如果有冲突发生,那么就要尝试选择另外的单元,直到找出空的单元为止。更一般的,单元h_0(X),h_1(X),h_2(X),……,相继试选,其中h_i(X) = (Hash(X)+F(i)) mod TableSize,且F(0) = 0;函数F是冲突解决方法。因为所有的数据都要置入表内,所以开放定址散列法所需要的表比分离链接法用的表大。一般来说,开放定址法的装填因子应该低于0.5。现在我们就来考虑三个通常冲突解决方法。

线形探测法
在线形探测法中,函数F是i的线性函数,典型类型是F(i) = i。这相当于逐个探测单元(必要时可以绕回)以查找出一个空单元。
例如将关键字{89,18,49,58,69}插入到一个散列表的情况:

空表插入89插入18插入49插入58插入69
0494949
15858
269
3
4
5
6
7
818181818
98989898989

第一个冲突关键字在49时产生,它被放入下一个空闲地址,即地址0,该地址是开放的。关键字58依次和18,89,49发生冲突后,试选三次后才能找到一个空单元。对于69的处理也是类似的。只要表足够大总能找到一个自由单元。但是花费的时间是相当多的。更糟糕的是,即使表相对较空,这样占据的单元也会开始形成一些区块,其结果称为一次聚集,于是散列到区块中的任何关键字都需要多次试选单元才能解决冲突,然后该关键字被添加到相应的区块中。

平方探测法
平方探测法是消除线形探测中一次聚集问题的冲突解决办法。平方探测就是冲突函数为二次函数的探测方法。流行的选择是F(i) = i^2;

空表插入89插入18插入49插入58插入69
0494949
1
25858
369
4
5
6
7
818181818
98989898989

当49和89产生冲突时,其下一位置为下一单元,该单元是空的,因此49就被放在那里。此后58在位置8处发生了冲突,其后相邻的单元经探测得知发生了另外的冲突。下一个探测单元在距位置8为2^2 = 4远处,这个单元是个空单元,因此关键字58就被放在单元2处。对于关键字啊69的处理过程也是一样的。

定理:如果使用平方探测,且表的大小为素数,那么当表至少有一半是空的时候,总能够插入一个新的元素。

虽然平方探测排除了一次聚集,但是散列到同一位置上的那些元素将探测相同的备选单元,这叫二次聚集

双散列
双散列可以排除二次聚集问题,不过要花费另外的一些乘法和除法形销。对于双散列,一种流行的选择是F(i) = i·hash_2(X)。这个公式是说,我们将第二个散列函数应用到X并在距离hash_2(X), 2hash_2(X)等处检测。hash_2(X)选择的不好将是灾难性的。例如,若把99插入到前面的例子的输入中,则通常的选择是hash_2(X) = X%9;将不起作用。因此函数不一定要算的0值。另外,保证所有的单元都能被探测到也是很重要的。诸如hash_2(X) = R - (X%R)这样的函数将起到良好的作用,其中R为小于TableSize的素数。

空表插入89插入18插入49插入58插入69
069
1
2
35858
4
5
6494949
7
818181818
98989898989

第一个冲突发生在插入49时。hash_2(49) = 7-0 =7;故49会被插入到6的位置。hash_2(58) = 7-2 = 5,于是58被插入到位置3。最后69产生冲突,从而被插入到距离为hash_2(69) = 7-6 = 1的地方。

四、再散列

对于使用平方探测的开放地址散列法,如果表的元素填的太满的话,那么操作的运行时间将开始消耗过长,且Insert操作可能失败。这可能发生在有太多的移动和插入混合的场合。此时一种解决方案是建立另外一个大约两倍大的表(而且使用一个相关的新散列函数),扫描整个原始散列表,计算每个(未删除元素的新散列值并将其插入到新表中)。

例如,将元素13,15,24,6插入到大小为7的开放定址散列表中,散列函数是h(X) = X mod 7。
在这里插入图片描述
如果再将23插入后,将有70%的单元是满的。因为填的过满,所以我们建立一个新表,该表的大小之所以为17,是因为17是原表大小的两倍后的第一个素数。新的散列函数为h(X) = X mod 17。
在这里插入图片描述
整个操作就叫做再散列。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
在计算机科学中,Map(也称为哈希表或关联数组)是一种常见的数据结构,它用于存储键值对,提供了快速查找、插入和删除元素的能力。它的底层数据结构通常有以下几种实现: 1. **开放寻址法**:当发生冲突(即两个不同的键映射到同一个位置)时,会寻找下一个空闲的位置,如线性探测(Linear Probing)、二次探测(Quadratic Probing)或双散列(Double Hashing)。 2. **链地址法**:每个位置存储一个链表节点,链表中的每个节点包含键值对。当发生冲突时,新键值对被添加到相应键的链表中。 3. **分块(Bucket)数组**:将整个数据空间划分为多个大小相同的块,每个块内部使用上述的开放寻址或链地址法解决冲突。 4. **红黑树**:在某些实现中,尤其是那些追求更高效的平衡查找性能的,可能会选择使用自平衡二叉查找树,如红黑树,来作为底层数据结构。 5. **哈希表数组**:这是最常见的实现方式,它由一个固定大小的数组和额外的数据结构(如链表或开放地址数组)组成,用于处理哈希冲突。 Map的具体实现取决于编程语言和库的选择,例如C++的`std::unordered_map`通常使用开放寻址法,而Java的`HashMap`则使用链地址法。不同的实现会影响性能,如查找速度、空间效率和冲突处理策略。如果你有特定编程语言背景的问题,我可以提供更详细的解释。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

全栈游戏开发

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值