Java面试每日一题：HashMap

最新推荐文章于 2023-03-18 13:34:07 发布

屎山搬运工

最新推荐文章于 2023-03-18 13:34:07 发布

阅读量147

点赞数

分类专栏： Java 文章标签：链表 java hashmap java.util.concurrent hashcode

本文链接：https://blog.csdn.net/qq_37974048/article/details/113002952

版权

Java 专栏收录该内容

29 篇文章 0 订阅

订阅专栏

HashMap的数据插入（put）和获取（get）

put方法

根据Key计算出hashcode。
根据计算出的hashcode定位出所在桶。
如果桶为空，则说明当前位置没有数据存入，则新增一个Entry对象写入当前位置。
如果桶不空，则遍历桶下面的链表，比较（equals）Key值是否相等，如果相等则进行覆盖，并返回原来的值；如果链表没有相等的Key，则新增节点插入链表。

get方法

根据key计算出hashcode，然后定位到具体的桶；
遍历桶下面的链表，直到Key相等的时候就返回值；
如果桶为空，则返回空。

JDK 1.7和JDK 1.8的区别

在JDK 1.7中，当 Hash 冲突严重时，在桶上形成的链表会变的越来越长，这样在查询时的效率就会越来越低；时间复杂度为 O(N)。
因此1.8中重点优化了查询效率：当链表的长度大于设置的阈值（默认值为8）时，就将所在链表转换成红黑树。

HashMap的容量及扩容

和扩容相关的参数主要有：capacity、size、threshold 和 load_factor。

参数	含义
capacity	table 的容量大小，默认为 16。需要注意的是 capacity 必须保证为 2 的 n 次方。
size	键值对数量
threshold	size 的临界值，当 size 大于等于 threshold 就必须进行扩容操作。
loadFactor	装载因子，table 能够使用的比例，threshold = (int)(capacity* loadFactor)。

当存入的数据数量达到了threshold时，就需要对其扩容，规定HashMap的容量为2的n次方，所以扩容就是讲容量扩大一倍。假设原数组长度 capacity 为 16，扩容之后 new capacity 为 32：
在进行扩容时，需要把键值对重新计算桶下标，从而放到对应的桶上。HashMap 使用 hash%capacity 来确定桶下标。HashMap capacity 为 2 的 n 次方这一特点能够极大降低重新计算桶下标操作的复杂度。
扩容使用 resize() 实现，需要注意的是，扩容操作同样需要把 oldTable 的所有键值对重新插入 newTable 中，因此这一步是很费时的。因此通常建议能提前预估 HashMap 的大小最好，尽量的减少扩容带来的性能损耗。

HashMap的线程安全性

不是线程安全的；
如果有两个线程A和B，都进行插入数据，刚好这两条不同的数据经过哈希计算后得到的哈希码是一样的，且该位置还没有其他的数据。所以这两个线程都会进入我在上面标记为1的代码中。假设一种情况，线程A通过if判断，该位置没有哈希冲突，进入了if语句，还没有进行数据插入，这时候 CPU 就把资源让给了线程B，线程A停在了if语句里面，线程B判断该位置没有哈希冲突（线程A的数据还没插入），也进入了if语句，线程B执行完后，轮到线程A执行，现在线程A直接在该位置插入而不用再判断。这时候，你会发现线程A把线程B插入的数据给覆盖了。发生了线程不安全情况。本来在 HashMap 中，发生哈希冲突是可以用链表法或者红黑树来解决的，但是在多线程中，可能就直接给覆盖了。

ConcurrentHashMap

为了解决HashMap线程不安全的问题，提出了ConcurrentHashMap
JDK 1.7 使用分段锁机制来实现并发更新操作，核心类为 Segment，它继承自重入锁ReentrantLock，并发度与 Segment 数量相等。
JDK 1.8 使用了 CAS 操作来支持更高的并发度，在 CAS 操作失败时使用内置锁 synchronized。
并且 JDK 1.8 的实现也在链表过长时会转换为红黑树。

ConcurrentHashMap 和 HashMap 实现上类似，最主要的差别是 ConcurrentHashMap 采用了分段锁（Segment），每个分段锁维护着几个桶（HashEntry），多个线程可以同时访问不同分段锁上的桶，从而使其并发度更高（并发度就是 Segment 的个数）。
Segment 继承自 ReentrantLock。
默认的并发级别为 16，也就是说默认创建 16 个 Segment。

1. get

只需要将 Key 通过 Hash 之后定位到具体的 Segment ，再通过一次 Hash 定位到具体的元素上。

由于 HashEntry 中的 value 属性是用 volatile 关键词修饰的，保证了内存可见性，所以每次获取时都是最新值。

ConcurrentHashMap 的 get 方法是非常高效的，因为整个过程都不需要加锁。

2. put

首先是通过 key 定位到 Segment，之后在对应的 Segment 中进行具体的 put。
虽然 HashEntry 中的 value 是用 volatile 关键词修饰的，但是并不能保证并发的原子性，所以 put 操作时仍然需要加锁处理。
首先第一步的时候会尝试获取锁，如果获取失败肯定就有其他线程存在竞争，则利用 scanAndLockForPut() 自旋获取锁。
尝试自旋获取锁。
如果重试的次数达到了 MAX_SCAN_RETRIES 则改为阻塞锁获取，保证能获取成功。
锁获取成功后，就按照HashMap的put方式插入数据
最后会解除所获取当前 Segment 的锁。

3. size 操作

每个 Segment 维护了一个 count 变量来统计该 Segment 中的键值对个数。
在执行 size 操作时，需要遍历所有 Segment 然后把 count 累计起来。
ConcurrentHashMap 在执行 size 操作时先尝试不加锁，如果连续两次不加锁操作得到的结果一致，那么可以认为这个结果是正确的。
尝试次数使用 RETRIES_BEFORE_LOCK 定义，该值为 2，retries 初始值为 -1，因此尝试次数为 3。
如果尝试的次数超过 3 次，就需要对每个 Segment 加锁。

补充

HashMap 允许插入键为 null 的键值对。但是因为无法调用 null 的 hashCode() 方法，也就无法确定该键值对的桶下标，只能通过强制指定一个桶下标来存放。HashMap 使用第 0 个桶存放键为 null 的键值对。

设 HashMap 的 table 长度为 M，需要存储的键值对数量为 N，如果哈希函数满足均匀性的要求，那么每条链表的长度大约为 N/M，因此查找的复杂度为 O(N/M)。

为了让查找的成本降低，应该使 N/M 尽可能小，因此需要保证 M 尽可能大，也就是说 table 要尽可能大。HashMap 采用动态扩容来根据当前的 N 值来调整 M 值，使得空间效率和时间效率都能得到保证。

屎山搬运工

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Java面试每日一题：HashMap

HashMap的数据插入（put）和获取（get）put方法根据Key计算出hashcode。根据计算出的hashcode定位出所在桶。如果桶为空，则说明当前位置没有数据存入，则新增一个Entry对象写入当前位置。如果桶不空，则遍历桶下面的链表，比较（equals）Key值是否相等，如果相等则进行覆盖，并返回原来的值；如果链表没有相等的Key，则新增节点插入链表。get方法根据key计算出hashcode，然后定位到具体的桶；遍历桶下面的链表，直到Key相等的时候就返回值；如果桶为空
复制链接

扫一扫