(8) 散列表(Hash Table)原理和业界应用场景

本文链接：https://blog.csdn.net/qq_35494772/article/details/120423849

数据结构&算法模块总结

1.散列思想和散列函数

(1)散列思想

散列表用的是数组支持按照下标随机访问数据的特性，所以散列表其实就是数组的一种扩展，由数组演化而来。

例如将运动员编号和运动员信息一一对应。

数组实现：因为参赛编号1~n跟数组下标一一对应，当我们需要查询参赛编号为x的选手的时候，我们只需要将下标为x的数组元素取出来就可以了，时间复杂度就是O(1)。
散列函数实现：使用复杂能够区分用户的编号XXXXX作为 key 。
- 把参赛编号key转化为数组下标的映射方法就叫作 散列函数（或“Hash函数”“哈希函数”）
- 而 散列函数计算得到的值就叫作 散列值（或“Hash值”“哈希值”）

(2)散列函数

三点散列函数设计的基本要求：

散列函数计算得到的散列值是一个非负整数（因为数组下标是从0开始的，所以散列函数生成的散列值也要是非负整数）。
如果key1 = key2，那hash(key1) == hash(key2) （相同的key，经过散列函数得到的散列值也应该是相同的）。
如果key1 ≠ key2，那hash(key1) ≠ hash(key2) （但是不同Key经过散列函数得到的散列不一定不一样，散列冲突问题！）。

因此，要想找到一个不同的key对应的散列值都不一样的散列函数，几乎是不可能的。即便像业界著名的MD5、SHA、CRC等哈希算法，也无法完全避免这种散列冲突。

2.散列函数设计

(1)散列函数设计原则

计算性能优异
散列函数生成的值要尽可能随机并且均匀分布，这样散列到每个槽里的数据也会比较平均，不会出现某个槽内数据特别多的情况。
关键字的长度、特点、分布、还有散列表的大小等等....

(2)转载因子过大调整

对于动态散列表来说，数据集合是频繁变动的，我们事先无法预估将要加入的数据个数，所以我们也无法事先申请一个足够大的散列表。当装载因子大到一定程度之后，散列冲突就会变得不可接受。

动态扩容解决：

当装载因子过大时，我们也可以进行动态扩容，重新申请一个更大的散列表，将数据搬移到这个新散列表中。假设每次扩容我们都申请一个原来散列表大小两倍的空间。如果原来散列表的装载因子是0.8，那经过扩容之后，新散列表的装载因子就下降为原来的一半，变成了0.4。

例如在原来的散列表中，21这个元素原来存储在下标为0的位置，搬移到新的散列表中，存储在下标为7的位置。

(3)扩容设计

在特殊情况下，当装载因子已经到达阈值，需要先进行扩容，再插入数据。这个时候，插入数据就会变得很慢，甚至会无法接受。

为了解决一次性扩容耗时过多的情况，我们可以将扩容操作穿插在插入操作的过程中，分批完成。当装载因子触达阈值之后，我们只申请新空间，但并不将老的数据搬移到新散列表中。

当有新数据要插入时，将新数据插入新散列表中，并且从老的散列表中拿出一个数据放入到新散列表。重复经过多次插入操作之后，老的散列表中的数据就一点一点全部搬移到新散列表中了。这样没有了集中的一次性数据搬移，插入操作就都变得很快了。

期间可能有些业务查询操作，为了兼容了新、老散列表中的数据，我们先从新散列表中查找，如果没有找到，再去老的散列表中查找。通过这样均摊的方法，将一次性扩容的代价，均摊到多次插入操作中，就避免了一次性扩容耗时过多的情况。这种实现方式，任何情况下，插入一个数据的时间复杂度都是O(1)。

3.散列冲突两种解决方式

【实用场景】

Java中LinkedHashMap采用了链表法解决冲突，ThreadLocalMap是通过线性探测的开放寻址法来解决冲突。

(1)开放地址法

核心思想： 如果出现了散列冲突，我们就重新探测一个空闲位置，将其插入。

①线性探测

散列表插入数据时，如果某个数据经过散列函数散列之后，存储位置已经被占用了，我们就从当前位置开始，依次往后查找，看是否有空闲位置，直到找到为止。

弊端： 当散列表中插入的数据越来越多时，散列冲突发生的可能性就会越来越大，空闲位置会越来越少，线性探测的时间就会越来越久。极端情况下，我们可能需要探测整个散列表，所以最坏情况下的时间复杂度为O(n)。

②二次探测

线性探测每次探测的步长是1， 而二次探测探测的步长就变成了原来的“二次方”，也就是说，它探测的下标序列就是hash(key)+0，hash(key)+1，hash(key)+4……

③双重探测

双重散列，意思就是不仅要使用一个散列函数。我们使用一组散列函数hash1(key)，hash2(key)，hash3(key)…… 我们先用第一个散列函数，如果计算得到的存储位置已经被占用，再用第二个散列函数，依次类推，直到找到空闲的存储位置。

这些典型探测方法本质上是减少冲突概率。一般情况下，我们会尽可能保证散列表中有一定比例的空闲槽位。我们用 装载因子（load factor）来表示空位的多少。

散列表的装载因子=填入表中的元素个数/散列表的长度

优点： 当数据量比较小、装载因子小的时候，适合采用开放寻址法。
缺点：装载因子越大，说明空闲位置越少，冲突越多，散列表的性能会下降。

(2)链表法

在散列表中， 每个“桶(bucket)”或者"槽(slot)”会对应一条链表，所有散列值相同的元素都放到相同槽位对应的链表中。

由于链表因为要存储指针，所以对于比较小的对象的存储，是比较消耗内存的，还有可能会让内存的消耗翻倍。而且，因为链表中的结点是零散分布在内存中的，不是连续的，所以对CPU缓存是不友好的，这方面对于执行效率也有一定的影响。如果我们存储的是大对象，也就是说要存储的对象的大小远远大于一个指针的大小（4个字节或者8个字节），那链表中指针的内存消耗在大对象面前就可以忽略了。

链表高效改造方式：如跳表和红黑树， 即便出现散列冲突，极端情况下，所有的数据都散列到同一个桶内，那最终退化成的散列表的查找时间也只不过是O(logn) 。 这样避免了 散列碰撞攻击。

因此，基于链表的散列冲突处理方法比较适合存储大对象、大数据量的散列表，而且，比起开放寻址法，它更加灵活，支持更多的优化策略，比如用红黑树代替链表。

(3)HashMap原理

①初始大小：默认值为16，可以通过修改默认初始大小，减少动态扩容的次数提高性能

② 装载因子和动态扩容：默认是0.75，当元素个数超过0.75*capacity（capacity表示散列表的容量）的时候，就会启动扩容，每次扩容都会扩容为原来的两倍大小。

③ 散列冲突解决方法：底层采用链表法来解决冲突。 当链表长度太长（默认超过8）时，链表就转换为红黑树。我们可以利用红黑树快速增删改查的特点，提高HashMap的性能。 当红黑树结点个数少于8个的时候，又会将红黑树转化为链表。因为在数据量较小的情况下，红黑树要维护平衡，比起链表来，性能上的优势并不明显。

④散列函数：

//追求的是简单高效、分布均匀
int hash(Object key) {
    int h = key.hashCode()；                    //(1)计算key对应的hashcode
    return (h ^ (h >>> 16)) & (capitity -1);    //(2)capicity表示散列表的大小
}

public int hashCode() {
  int var1 = this.hash;
  if(var1 == 0 && this.value.length > 0) {
    char[] var2 = this.value;
    for(int var3 = 0; var3 < this.value.length; ++var3) {
      var1 = 31 * var1 + var2[var3];
    }
    this.hash = var1;
  }
  return var1;
}

4.缓存应用场景：散列表+链表实现LRU

(1)缓存系统原理

我们需要维护一个 按照访问时间从大到小有序排列的链表结构。因为缓存大小有限，当缓存空间不够，需要淘汰一个数据的时候，我们就直接将链表头部的结点删除。因此包含三个操作：

往缓存中添加一个数据；
从缓存中删除一个数据；
在缓存中查找一个数据。

这三个操作都要涉及“查找”操作，如果单纯地采用链表的话，时间复杂度只能是O(n）。例如查找操作只能每次从链表头节点开始查找，另外删除数据必须找到前一个节点。

(2)散列表和链表 O(1)实现

每个结点会在两条链中。一个链是双向链表，另一个链是散列表中的拉链。 前驱和后继指针是为了将结点串在双向链表中，hnext指针是为了将结点串在散列表的拉链中。

查找数据：首先计算 数据的hash值找到散列表下标，时间复杂度接近O(1) 。然后在双向列表中找到缓存值。 当找到数据之后，我们还需要将它移动到双向链表的尾部。
删除数据：首先需要找到数据所在的结点，然后将结点删除。借助散列表，我们可以在O(1)时间复杂度里找到要删除的结点。因为链表是双向链表，双向链表可以通过前驱指针O(1)时间复杂度获取前驱结点，所以在双向链表中，删除结点只需要O(1)的时间复杂度。
添加数据：首先看数据是否已经在缓存中。如果已经在其中，需要将其移动到双向链表的尾部；如果不在其中，还要看缓存有没有满。如果满了，则将双向链表头部的结点删除，然后再将数据放到链表的尾部；如果没有满，就直接将数据放到链表的尾部。

5.有序集合应用场景：Redis有序集合

在Redis有序集合中，每个成员对象有两个重要的属性， key(键值)和 score(分值)。真实场景中：我们可以通过用户的ID来查找积分信息，也可以通过积分区间来查找用户ID或者姓名信息。这里包含ID、姓名和积分的用户信息，就是成员对象，用户ID就是key，积分就是score。

因此，Redis有序集合已有的操作如下：

添加一个成员对象；
按照键值来删除一个成员对象；
按照键值来查找一个成员对象；
按照分值区间查找数据，比如查找积分在[100, 356]之间的成员对象；
按照分值从小到大排序成员变量；

原始Redis跳表缺点： 仅仅能够按照分值将成员对象组织成跳表的结构，那按照键值来删除、查询成员对象就会很慢(因为key没有关联性，只是通过score由低到高组成链表)。

解决方法：与LRU缓存淘汰算法的解决方法类似。 我们可以再按照键值构建一个散列表，这样按照key来删除、查找一个成员对象的时间复杂度就变成了O(1)。同时，借助跳表结构，其他操作也非常高效。

6.应用场景：LinkedHashMap和HashMap

(1)LinkedHashMap和HashMap结构区别

LinkedHashMap为散列表+双链表，HashMap为散列表+单链表。采用双链表可以维持 顺序(插入顺序或时间顺序)。

(2)LinkedHashMap时间顺序

//(1) 10是初始大小，0.75是装载因子，true是表示按照访问时间排序
HashMap<Integer, Integer> m = new LinkedHashMap<>(10, 0.75f, true);
m.put(3, 11);
m.put(1, 12);
m.put(5, 23);
m.put(2, 22);

//(2) 重复插入key=3
m.put(3, 26);
//(3) 访问key=5
m.get(5);

for (Map.Entry e : m.entrySet()) {
  System.out.println(e.getKey());
}

①初始化LinkedHashMap