散列表

最新推荐文章于 2022-06-10 17:58:45 发布

qq_644982644

最新推荐文章于 2022-06-10 17:58:45 发布

阅读量153

点赞数 1

分类专栏：算法文章标签：算法

本文链接：https://blog.csdn.net/qq_36761002/article/details/104123778

版权

算法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

众所周知，散列表是一种十分重要的数据结构，接下来就从各个方面分析下跟散列表相关的问题。主要解决什么是散列表，散列冲突的解决方法，以及各种方法的优缺点。

概览图：
在这里插入图片描述

什么是散列表？

散列表（Hash table，也叫哈希表），是根据关键码值(Key value)而直接进行访问的数据结构，是数组的衍生体。

散列表的用途？

也就是说，散列表通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度。这个映射函数叫做散列函数，存放记录的数组叫做散列表。
给定表M，存在函数f(key)，对任意给定的关键字值key，代入函数后若能得到包含该关键字的记录在表中的地址，则称表M为哈希(Hash）表，函数f(key)为哈希(Hash) 函数。

如何设计散列函数？

散列函数的基本要求：

散列函数计算得到的散列值是一个非负整数；
如果 key1 = key2，那 hash(key1) == hash(key2)；
如果 key1 ≠ key2，那 hash(key1) ≠ hash(key2)；
函数需要足够简单，复杂的函数，在计算过程中需要消耗过多的cpu资源；
该函数计算结果需要随机并且分布均匀；

我来解释一下这三点。
其中，第一点理解起来应该没有任何问题。因为数组下标是从 0 开始的，所以散列函数生成的散列值也要是非负整数。
第二点也很好理解。相同的 key，经过散列函数得到的散列值也应该是相同的。
第三点理解起来可能会有问题，我着重说一下。这个要求看起来合情合理，但是在真实的情况下，要想找到一个不同的 key 对应的散列值都不一样的散列函数，几乎是不可能的。
即便像业界著名的MD5、SHA、CRC等哈希算法，也无法完全避免这种散列冲突。而且，因为数组的存储空间有限，也会加大散列冲突的概率。所以我们几乎无法找到一个完美的无冲突的散列函数，即便能找到，付出的时间成本、计算成本也是很大的，所以针对散列冲突问题，我们需要通过其他途径来解决。

如何解决散列冲突？

开放寻址法

开放寻址法的核心思想是，如果出现了散列冲突，我们就重新探测一个空闲位置，将其插入。那如何重新探测新的位置呢？我先讲一个比较简单的探测方法，线性探测（Linear Probing）。

当我们往散列表中插入数据时，如果某个数据经过散列函数散列之后，存储位置已经被占用了，我们就从当前位置开始，依次往后查找，看是否有空闲位置，直到找到为止。

这种方法需要注意的点是，因为我们寻找的过程是，一旦发现null的位置，那我们就认为该寻找的value不存在，即停止了查找过程。
所以，当我们删除一个元素的时候，我们不能单纯的将该位置标记为null，而是因为标记为已删除状态。

对于开放寻址冲突解决方法，除了线性探测方法之外，还有另外两种比较经典的探测方法，二次探测（Quadratic probing）和双重散列（Double hashing）。

所谓二次探测，跟线性探测很像，线性探测每次探测的步长是 1，那它探测的下标序列就是 hash(key)+0，hash(key)+1，hash(key)+2……而二次探测探测的步长就变成了原来的“二次方”，也就是说，它探测的下标序列就是 hash(key)+0，hash(key)+12，hash(key)+22……

所谓双重散列，意思就是不仅要使用一个散列函数。我们使用一组散列函数 hash1(key)，hash2(key)，hash3(key)……我们先用第一个散列函数，如果计算得到的存储位置已经被占用，再用第二个散列函数，依次类推，直到找到空闲的存储位置。

不管采用哪种探测方法，当散列表中空闲位置不多的时候，散列冲突的概率就会大大提高。为了尽可能保证散列表的操作效率，一般情况下，我们会尽可能保证散列表中有一定比例的空闲槽位。

我们用装载因子（load factor）来表示空位的多少。
装载因子的计算公式是：

散列表的装载因子=填入表中的元素个数/散列表的长度

装载因子越大，说明空闲位置越少，冲突越多，散列表的性能会下降。

总结一下，当数据量比较小、装载因子小的时候，适合采用开放寻址法。这也是 Java 中的ThreadLocalMap使用开放寻址法解决散列冲突的原因。

链表法

链表法是一种更加常用的散列冲突解决办法，相比开放寻址法，它要简单很多。在散列表中，每个“桶（bucket）”或者“槽（slot）”会对应一条链表，所有散列值相同的元素我们都放到相同槽位对应的链表中。

当插入的时候，我们只需要通过散列函数计算出对应的散列槽位，将其插入到对应链表中即可，所以插入的时间复杂度是 O(1)。
当查找、删除一个元素时，我们同样通过散列函数计算出对应的槽，然后遍历链表查找或者删除。

那查找或删除操作的时间复杂度是多少呢？实际上，这两个操作的时间复杂度跟链表的长度 k 成正比，也就是 O(k)。对于散列比较均匀的散列函数来说，理论上讲，k=n/m，其中 n 表示散列中数据的个数，m 表示散列表中“槽”的个数。

总结一下，基于链表的散列冲突处理方法比较适合存储大对象、大数据量的散列表，而且，比起开放寻址法，它更加灵活，支持更多的优化策略，比如用红黑树代替链表。

如何避免低效扩容

在实际生产中，随之时间的变化，预先申请的空间总是有可能被沾满，散列表也是一样的。当散列表的转载因子过大是，我们需要面临的就是动态扩容的问题。

作为数组的动态扩容，我们的方法是申请一块更大的新的内存，然后将数据旧的hash表中的数据，迁移到新的hash表中。

这里又有一个问题是，假如此时旧的hash表中有1GB的数据，由于迁移的过程中，每一个数据都需要重新进行散列，那么这个操作所需要的时间，是及其影响用户体验的，甚至有可能造成这一秒你的服务不可用。

我们的解决方法是，每新增一个数据则迁移一个数据。这样就会分散迁移旧数据所需要的时间，避免低效扩容。

工业级散列函数解析？

Java 中的 HashMap 这样一个工业级的散列表，来具体看下，这些技术是怎么应用的。

初始大小HashMap 默认的初始大小是 16，当然这个默认值是可以设置的，如果事先知道大概的数据量有多大，可以通过修改默认初始大小，减少动态扩容的次数，这样会大大提高 HashMap 的性能。
装载因子和动态扩容最大装载因子默认是 0.75，当 HashMap 中元素个数超过 0.75*capacity（capacity 表示散列表的容量）的时候，就会启动扩容，每次扩容都会扩容为原来的两倍大小。
散列冲突解决方法HashMap 底层采用链表法来解决冲突。即使负载因子和散列函数设计得再合理，也免不了会出现拉链过长的情况，一旦出现拉链过长，则会严重影响 HashMap 的性能。于是，在 JDK1.8 版本中，为了对 HashMap 做进一步优化，我们引入了红黑树。而当链表长度太长（默认超过 8）时，链表就转换为红黑树。我们可以利用红黑树快速增删改查的特点，提高 HashMap 的性能。当红黑树结点个数少于 8 个的时候，又会将红黑树转化为链表。因为在数据量较小的情况下，红黑树要维护平衡，比起链表来，性能上的优势并不明显。

qq_644982644

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
散列表

众所周知，散列表是一种十分重要的数据结构，接下来就从各个方面分析下跟散列表相关的问题。主要解决什么是散列表，散列冲突的解决方法，以及各种方法的优缺点。概览图：什么是散列表？散列表（Hash table，也叫哈希表），是根据关键码值(Key value)而直接进行访问的数据结构，是数组的衍生体。散列表的用途？也就是说，散列表通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度。...
复制链接

扫一扫