HashMap 问题汇总

1、介绍下 HashMap 的底层数据结构

答:我们现在用的都是 JDK 1.8,底层是由“数组+链表+红黑树”组成,如下图,而在 JDK 1.8 之前是由“数组+链表”组成。
在这里插入图片描述
2、为什么要改成“数组+链表+红黑树”?

答:主要是为了提升在 hash 冲突严重时(链表过长)的查找性能,使用链表的查找性能是 O(n),而使用红黑树是 O(logn)。

3、那在什么时候用链表?什么时候用红黑树?

答:对于插入,默认情况下是使用链表节点。当同一个索引位置的节点在新增后达到 9个(阈值8):如果此时数组长度大于等于 64,则会触发链表节点转红黑树节点(treeifyBin),而如果数组长度小于64,则不会触发链表转红黑树,而是会进行扩容,因为此时的数据量还比较小。

对于移除,当同一个索引位置的节点在移除后达到 6 个,并且该索引位置的节点为红黑树节点,会触发红黑树节点转链表节点(untreeify)。

4、为什么链表转红黑树的阈值是8?

答:我们平时在进行方案设计时,必须考虑的两个很重要的因素是:时间和空间。对于 HashMap 也是同样的道理,简单来说,阈值为 8 是在时间和空间上权衡的结果。

红黑树节点大小约为链表节点的 2 倍,在节点太少时,红黑树的查找性能优势并不明显,付出 2 倍空间的代价作者觉得不值得。

理想情况下,使用随机的哈希码,节点分布在 hash 桶中的频率遵循泊松分布,按照泊松分布的公式计算,链表中节点个数为 8 时的概率为 0.00000006(跟大乐透一等奖差不多,中大乐透?不存在的),这个概率足够低了,并且到 8 个节点时,红黑树的性能优势也会开始展现出来,因此 8 是一个较合理的数字。

5、那为什么转回链表节点是用的 6 而不是复用 8?

答:如果我们设置节点多于 8 个转红黑树,少于 8 个就马上转链表,当节点个数在 8 徘徊时,就会频繁进行红黑树和链表的转换,造成性能的损耗。

6、那 HashMap 有哪些重要属性?分别用于做什么的?

答:除了用来存储我们的节点 table 数组外,HashMap 还有以下几个重要属性:

  • size:HashMap 已经存储的节点个数
  • threshold:扩容阈值,当 HashMap 的个数达到该值,触发扩容
  • loadFactor:负载因子,扩容阈值 = 容量 * 负载因子。

7、threshold 除了用于存放扩容阈值还有其他作用吗?

答:在我们新建 HashMap 对象时, threshold 还会被用来存初始化时的容量。HashMap 直到我们第一次插入节点时,才会对 table 进行初始化,避免不必要的空间浪费。

8、HashMap 的默认初始容量是多少?HashMap 的容量有什么限制吗?

答:默认初始容量是16。HashMap 的容量必须是 2 的 N 次方,HashMap 会根据我们传入的容量计算一个大于等于该容量的最小的 2 的 N 次方,例如传 9,容量为 16。

9、你这个 2 的 N 次方是怎么算的?

答:代码如下:

static final int tableSizeFor(int cap) {
    int n = cap - 1;
    n |= n >>> 1;
    n |= n >>> 2;
    n |= n >>> 4;
    n |= n >>> 8;
    n |= n >>> 16;
    return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? 
    MAXIMUM_CAPACITY : n + 1;
}

我们先不看第一行 “int n = cap - 1”,先看下面的5行计算。

|=(或等于):这个符号比较少见,但是 “+=” 应该都见过,看到这你应该明白了。例如:a |= b ,可以转成:a = a | b。
在这里插入图片描述
(无符号右移):例如 a >>> b 指的是将 a 向右移动 b 指定的位数,右移后左边空出的位用零来填充,移出右边的位被丢弃。
在这里插入图片描述
假设 n 的值为 0010 0001,则该计算如下图:
在这里插入图片描述
相信你应该看出来,这5个公式会通过最高位的1,拿到2个1、4个1、8个1、16个1、32个1。当然,有多少个1,取决于我们的入参有多大,但我们肯定的是经过这5个计算,得到的值是一个低位全是1的值,最后返回的时候 +1,则会得到1个比 n 大的 2 的 N 次方。

这时再看开头的 cap - 1 就很简单了,这是为了处理 cap 本身就是 2 的 N 次方的情况。

计算机底层是二进制的,移位和或运算是非常快的,所以这个方法的效率很高。

PS:这是 HashMap 中我个人最喜欢的设计,非常巧妙。

10、 你说 HashMap 的容量必须是 2 的 N 次方,这是为什么?

答:计算索引位置的公式为:(n - 1) & hash,当 n 为 2 的 N 次方时,n - 1 为低位全是 1 的值,此时任何值跟 n - 1 进行 & 运算的结果为该值的低 N 位,达到了和取模同样的效果,实现了均匀分布。实际上,这个设计就是基于公式:x mod 2^n = x & (2^n - 1),因为 & 运算比 mod 具有更高的效率。

如下图,当 n 不为 2 的 N 次方时,hash 冲突的概率明显增大。
在这里插入图片描述
11、 你说 HashMap 的默认初始容量是 16,为什么是16而不是其他的?

答:我认为是16的原因主要是:16是2的N次方,并且是一个较合理的大小。如果用8或32,我觉得也是OK的。实际上,我们在新建 HashMap 时,最好是根据自己使用情况设置初始容量,这才是最合理的方案。

12、刚才说的负载因子默认初始值又是多少?

答:负载因子默认值是0.75。

13、为什么是 0.75 而不是其他的?

答:这个也是在时间和空间上权衡的结果。如果值较高,例如 1,此时会减少空间开销,但是 hash 冲突的概率会增大,增加查找成本;而如果值较低,例如 0.5 ,此时 hash 冲突会降低,但是有一半的空间会被浪费,所以折衷考虑 0.75 似乎是一个合理的值。

14、HashMap 的插入流程是怎么样的?

答:
在这里插入图片描述
15、图里刚开始有个计算 key 的 hash 值,是怎么设计的?

答:拿到 key 的 hashCode,并将 hashCode 的高16位和 hashCode 进行异或(XOR)运算,得到最终的 hash 值。

static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

16、为什么要将 hashCode 的高16位参与运算?

答:主要是为了在 table 的长度较小的时候,让高位也参与运算,并且不会有太大的开销。

例如下图,如果不加入高位运算,由于 n - 1 是 0000 0111,所以结果只取决于 hash 值的低3位,无论高位怎么变化,结果都是一样的。
在这里插入图片描述
如果我们将高位参与运算,则索引计算结果就不会仅取决于低位。
在这里插入图片描述
17、扩容(resize)流程介绍下?

答:
在这里插入图片描述

18、红黑树和链表都是通过 e.hash & oldCap == 0 来定位在新表的索引位置,这是为什么?

答:请看对下面的例子。

扩容前 table 的容量为16,a 节点和 b 节点在扩容前处于同一索引位置。
在这里插入图片描述
扩容后,table 长度为32,新表的 n - 1 只比老表的 n - 1 在高位多了一个1(图中标红)。
在这里插入图片描述
因为 2 个节点在老表是同一个索引位置,因此计算新表的索引位置时,只取决于新表在高位多出来的这一位(图中标红),而这一位的值刚好等于 oldCap。

因为只取决于这一位,所以只会存在两种情况:

  • (e.hash & oldCap) == 0 ,则新表索引位置为“原索引位置”
  • (e.hash & oldCap) != 0,则新表索引位置为“原索引 + oldCap 位置”

19、HashMap 是线程安全的吗?

答:不是。HashMap 在并发下存在数据覆盖、遍历的同时进行修改会抛出 ConcurrentModificationException 异常等问题,JDK 1.8 之前还存在死循环问题。

20、介绍一下死循环问题?

答:导致死循环的根本原因是 JDK 1.7 扩容采用的是“头插法”,会导致同一索引位置的节点在扩容后顺序反掉。而 JDK 1.8 之后采用的是“尾插法”,扩容后节点顺序不会反掉,不存在死循环问题。

JDK 1.7.0 的扩容代码如下,用例子来看会好理解点。

void transfer(Entry[] newTable) {
    Entry[] src = table;
    int newCapacity = newTable.length;
    for (int j = 0; j < src.length; j++) {
        Entry<K,V> e = src[j];
        if (e != null) {
            src[j] = null;
            do {
                Entry<K,V> next = e.next;
                int i = indexFor(e.hash, newCapacity);
                e.next = newTable[i];
                newTable[i] = e;
                e = next;
            } while (e != null);
        }
    }
}

PS:这个流程较难理解,建议对着代码自己模拟走一遍。

例子:我们有1个容量为2的 HashMap,loadFactor=0.75,此时线程1和线程2 同时往该 HashMap 插入一个数据,都触发了扩容流程,接着有以下流程。

1)在2个线程都插入节点,触发扩容流程之前,此时的结构如下图。
在这里插入图片描述
2)线程1进行扩容,执行到代码:Entry<K,V> next = e.next 后被调度挂起,此时的结构如下图。
在这里插入图片描述
3)线程1被挂起后,线程2进入扩容流程,并走完整个扩容流程,此时的结构如下图。

在这里插入图片描述
由于两个线程操作的是同一个 table,所以该图又可以画成如下图。
在这里插入图片描述
4)线程1恢复后,继续走完第一次的循环流程,此时的结构如下图。
在这里插入图片描述
5)线程1继续走完第二次循环,此时的结构如下图。
在这里插入图片描述
6)线程1继续执行第三次循环,执行到 e.next = newTable[i] 时形成环,执行完第三次循环的结构如下图。
在这里插入图片描述
如果此时线程1调用 map.get(11) ,悲剧就出现了——Infinite Loop。

21、那总结下 JDK 1.8 主要进行了哪些优化?

答:JDK 1.8 的主要优化刚才我们都聊过了,主要有以下几点:

1)底层数据结构从“数组+链表”改成“数组+链表+红黑树”,主要是优化了 hash 冲突较严重时,链表过长的查找性能:O(n) -> O(logn)。

2)计算 table 初始容量的方式发生了改变,老的方式是从1开始不断向左进行移位运算,直到找到大于等于入参容量的值;新的方式则是通过“5个移位+或等于运算”来计算。

// JDK 1.7.0
public HashMap(int initialCapacity, float loadFactor) {
    // 省略
    // Find a power of 2 >= initialCapacity
    int capacity = 1;
    while (capacity < initialCapacity)
        capacity <<= 1;
    // ... 省略
}
// JDK 1.8.0_191
static final int tableSizeFor(int cap) {
    int n = cap - 1;
    n |= n >>> 1;
    n |= n >>> 2;
    n |= n >>> 4;
    n |= n >>> 8;
    n |= n >>> 16;
    return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? 
    MAXIMUM_CAPACITY : n + 1;
}

3)优化了 hash 值的计算方式,老的通过一顿瞎JB操作,新的只是简单的让高16位参与了运算。

// JDK 1.7.0
static int hash(int h) {
    h ^= (h >>> 20) ^ (h >>> 12);
    return h ^ (h >>> 7) ^ (h >>> 4);
}
// JDK 1.8.0_191
static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

4)扩容时插入方式从“头插法”改成“尾插法”,避免了并发下的死循环。

5)扩容时计算节点在新表的索引位置方式从“h & (length-1)”改成“hash & oldCap”,性能可能提升不大,但设计更巧妙、更优雅。

22、除了 HashMap,还用过哪些 Map,在使用时怎么选择?

答:
在这里插入图片描述
(完)

### 回答1: HashMap 本身不是线程安全的,如果需要解决线程问题,可以使用下列方法: 1. 加锁:使用 synchronized 关键字或者使用锁对象来保证 HashMap 的操作是线程安全的。 2. 使用 ConcurrentHashMap:这是 Java 并发包提供的线程安全的 HashMap 实现,可以在多线程环境下使用。 例如: ``` Map<String, Integer> map = new ConcurrentHashMap<>(); ``` 如果需要使用加锁的方式,可以如下操作: ``` private final Map<String, Integer> map = new HashMap<>(); private final Object lock = new Object(); public void put(String key, Integer value) { synchronized (lock) { map.put(key, value); } } public Integer get(String key) { synchronized (lock) { return map.get(key); } } ``` ### 回答2: HashMap本身并没有解决线程问题的特性,即它不是线程安全的数据结构。在多线程环境下,如果多个线程同时对HashMap进行读写操作,就有可能导致数据不一致或其他线程安全问题的发生。 然而,我们可以通过以下几种方式来解决HashMap在多线程环境下可能出现的线程问题: 1. 使用线程安全的HashMap类:Java提供了线程安全的HashMap实现,如ConcurrentHashMap。ConcurrentHashMap采用了分段锁的机制,可以并发地对不同的段进行操作,从而提高了并发度和性能。 2. 使用线程安全的包装类:通过使用Collections类的synchronizedMap方法对HashMap进行包装,可以将其转换为线程安全的Map,即使用synchronized关键字对所有方法进行加锁。这样,每次只允许一个线程对HashMap进行读写操作,能够确保线程安全。 3. 使用显式锁:通过使用显式锁(如ReentrantLock或ReadWriteLock)对HashMap进行加锁和解锁操作,可以实现对读写操作的互斥访问,确保线程安全。 4. 限制只读访问:如果只有读操作而没有写操作,可以将HashMap声明为final和不可变,这样就不需要考虑线程安全问题。 总之,HashMap本身是非线程安全的,但我们可以通过使用线程安全的HashMap实现、包装类、显式锁或限制只读访问来解决HashMap在多线程环境下的线程问题。 ### 回答3: HashMap是Java中常用的数据结构,用于存储键值对。在多线程环境下,HashMap可以出现线程问题,如不一致的读写操作,导致数据的丢失或者错乱。 为了解决线程问题,Java提供了ConcurrentHashMap类,它是线程安全的HashMap的实现。ConcurrentHashMap使用一种称为分段锁(Segment)的机制来实现并发访问。 ConcurrentHashMap内部分为多个小的Segment段,每个段都相当于一个独立的小的HashMap,可以独立地进行加锁操作。这样,当一个线程访问某个段时,其他段仍然可以被其他线程访问,不会阻塞其他的操作。 在写入操作时,ConcurrentHashMap只锁住相关的段,而不影响其他段的访问操作。这样就允许多个线程并发地进行读写操作,提高了并发性能。 此外,ConcurrentHashMap使用volatile和CAS(Compare and Swap)操作来保证内存的可见性和原子性,确保数据的一致性。 总结来说,HashMap可以通过ConcurrentHashMap来解决线程问题。ConcurrentHashMap使用分段锁机制,允许并发地读写操作,提高了并发性能。并且它使用volatile和CAS操作来保证内存的可见性和原子性,确保数据的一致性。因此,在多线程环境下,推荐使用ConcurrentHashMap而不是普通的HashMap来处理并发访问的问题
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值