HashMap之扩容原理＜通俗易懂版＞

最新推荐文章于 2024-06-07 09:15:00 发布

一枚萤火虫

最新推荐文章于 2024-06-07 09:15:00 发布

阅读量1.3k

点赞数 3

文章标签： java

本文链接：https://blog.csdn.net/qq_53808097/article/details/132190103

版权

一、什么是HashMap？

二、为什么要使用HashMap？

三、HashMap扩容为什么总是2的次幂？

四、JDk1.7HashMap扩容死循环问题

一、什么是HashMap？

HashMap是Java中常用的数据结构之一，它是一种键值对的集合，可以根据键快速地找到对应的值。HashMap的内部实现是通过一个数组来存储数据，每个数组元素是一个链表。当添加元素时，会根据键的哈希值来确定元素在数组中的位置，并将其添加到对应的链表中。

在这里插入图片描述

二、为什么要使用HashMap？

对于要求查询次数特别多，查询效率比较高同时插入和删除的次数比较少的情况下，通常会选择ArrayList，因为它的底层是通过数组实现的。对于插入和删除次数比较多同时在查询次数不多的情况下，通常会选择LinkedList，因为它的底层是通过链表实现的。

但现在同时要求插入，删除，查询效率都很高的情况下我们该如何选择容器呢？那么就有一种新的容器叫HashMap，他里面既有数组结构，也有链表结构，所以可以弥补相互的缺点。而且HashMap主要用法是get()和put() 。

使用HashMap有以下几个优点：

快速查找：HashMap内部使用哈希表实现，可以根据键快速地找到对应的值，查找的时间复杂度为O(1)。这使得HashMap非常适合存储大量数据并需要频繁查找的场景。
高效插入和删除：HashMap的插入和删除操作也是基于哈希表的，时间复杂度同样为O(1)。这使得HashMap在需要频繁插入和删除元素的场景下表现出色。
动态扩容：HashMap内部使用数组来存储数据，当元素的数量超过数组的容量时，会自动扩容。这使得HashMap可以灵活地存储任意数量的元素，而不需要事先确定容量。
键值对的存储：HashMap是一种键值对的集合，可以根据键唯一地存储和获取对应的值。这使得HashMap非常适合存储需要根据键进行查找和操作的数据。
支持null键和null值：HashMap允许存储null键和null值，这在某些场景下非常方便。

三、HashMap扩容为什么总是2的次幂？

HashMap的扩容公式：initailCapacity * loadFactor = HashMap

其中initailCapacity是初始容量：默认值为16（懒加载机制，只有当第一次put的时候才创建）

在这里插入图片描述

其中loadFactor是负载因子：默认值为0.75

在这里插入图片描述

当HashMap中的元素越来越多的时候，碰撞的几率也就越来越高（因为数组的长度是固定的），所以为了提高查询的效率，就要对HashMap的数组进行扩容，数组扩容这个操作也会出现在ArrayList中，所以这是一个通用的操作，很多人对它的性能表示过怀疑，不过想想我们的“均摊”原理，就释然了，而在hashmap数组扩容之后，最消耗性能的点就出现了：原数组中的数据必须重新计算其在新数组中的位置，并放进去，这就是resize。那么HashMap什么时候进行扩容呢？当hashmap中的元素个数超过数组大小loadFactor时，就会进行数组扩容，loadFactor的默认值为0.75，也就是说，默认情况下，数组大小为16，那么当hashmap中元素个数超过160.75=12的时候，就把数组的大小扩展为216=32，即扩大一倍，然后重新计算每个元素在数组中的位置，而这是一个非常消耗性能的操作，所以如果我们已经预知hashmap中元素的个数，那么预设元素的个数能够有效的提高hashmap的性能。比如说，我们有1000个元素new HashMap(1000), 但是理论上来讲new HashMap(1024)更合适，不过上面annegu已经说过，即使是1000，hashmap也自动会将其设置为1024。但是new HashMap(1024)还不是更合适的，因为0.751000 < 1000, 也就是说为了让0.75 * size > 1000, 我们必须这样new HashMap(2048)才最合适，既考虑了&的问题，也避免了resize的问题。

值得提醒的是初始容量和负载因子也可以自己设定的。使用的是位运算进行扩容，因为用乘法会影响CPU的性能，计算机不支持乘法运算，最终都会转化为加法运算。在这里插入图片描述

HashMap扩容主要是给数组扩容的，因为数组长度不可变，而链表是可变长度的。从HashMap的源码中可以看到HashMap在扩容时选择了位运算，向集合中添加元素时，会使用(n - 1) & hash的计算方法来得出该元素在集合中的位置。只有当对应位置的数据都为1时，运算结果也为1，当HashMap的容量是2的n次幂时，(n-1)的2进制也就是1111111***111这样形式的，这样与添加元素的hash值进行位运算时，能够充分的散列，使得添加的元素均匀分布在HashMap的每个位置上，减少hash碰撞，下面举例进行说明。

当HashMap的容量是16时，它的二进制是10000，(n-1)的二进制是01111，与hash值得计算结果如下：

在这里插入图片描述

上面四种情况我们可以看出，不同的hash值，和(n-1)进行位运算后，能够得出不同的值，使得添加的元素能够均匀分布在集合中不同的位置上，避免hash碰撞。

下面就来看一下HashMap的容量不是2的n次幂的情况，当容量为10时，二进制为01010，(n-1)的二进制是01001，向里面添加同样的元素，结果为

在这里插入图片描述

可以看出，有三个不同的元素经过&运算得出了同样的结果，严重的hash碰撞了。导致某一个链表的长度特别长，影响查询的效率。

综上所述，HashMap计算添加元素的位置时，使用的位运算，这是特别高效的运算；另外，HashMap的初始容量是2的n次幂，扩容也是2倍的形式进行扩容，是因为容量是2的n次幂，可以使得添加的元素均匀分布在HashMap中的数组上，减少hash碰撞，避免形成链表的结构，使得查询效率降低！

有个问题：为啥不使用取模呢？因为取模运算速度比较低。

四、JDk1.7HashMap扩容死循环问题

HashMap是一个线程不安全的容器，在最坏的情况下，所有元素都定位到同一个位置，形成一个长长的链表，这样get一个值时，最坏情况需要遍历所有节点，性能变成了O(n)。 JDK1.7中HashMap采用头插法拉链表，所谓头插法，即在每次都在链表头部（即桶中）插入最后添加的数据。死循环问题只会出现在多线程的情况下。好多文章通过举例子，画数据结构变化过程的图来进行讲解。不够形象，不易理解。这里我通过一个生活模型来进行讲解；

旅游公司维护旅游路线模型；

如下图，图中路线池子对应的就是hashMap中的数组，每个旅游路线的链表就是hashMap中的hash碰撞产生的链表；

在这里插入图片描述

故事是这样的：游客买完了某个旅游路线后，旅游公司会开大巴把你拉到你购买的起点，然后游客自己跟着路标进行旅游即可。旅游公司一直运营的很好。但是偶尔会有时候用户会投诉说路线有问题，把我们当傻子一样困死在线路中；但是这种现象经常出现在新加了景点，然后重新维护旅游路线的路标时候，（这里也就对应的是hashMap进行添加元素并且扩容的场景）；我们知道旅游线路都是带有一定文化主题的。在一个线路中的景点在重新维护的的时候很可能还是在一组。但是为了防止游客觉得没有新意，往往仅仅会给路线改个名字，然后把线路倒过来，重新设置路标，然后继续使用（头插法）后来经过分析原来是名字叫病发的领导经常喝酒，脑袋混了经常同时派多个人去维护同一个路线；

下面我们看看怎么出现问题的；我们已第一条旅游线路来举例子；也就是A->B->C这条路线；

这不这次病发先派 小红 去把1路线的路标倒过来排，并且改名为15路线；然后他没过1秒钟就忘了，然后又派 小黑 也去同时维护同一条路线；小红是个急性子，想赶快维护好下班回家。小黑是个佛系躺平青年，慢悠悠的弄；

时间	小红	小黑
1分钟	到达A	到达A
2分钟	1.记下下一个要去处理的景点是B，2.把A挪到15路线开头，3，把A的路标设置为空	1.把A挪到15路线开头，2.记下下一个景点是B，把A的路标设置为空 ,并前往B，在去B的的路上玩起了王者荣耀
3分钟	到达B，记下下一个景点C,把B挪到15路线，并把B的路标设置为A (头插法)	AB路上王者荣耀
4分钟	到达C，发现没有下一个景点了，把C挪到15路线，并把C的路标设置为B	AB路上要输了，郁闷的往B景点走
5分钟	完活，赶紧下班回家	到达B，把B设置到15路线，把B的下一个景点设置为A（头插法）,然后发现下一个要处理的节点是A，前往A
6分钟	到家了	到达A，把A设置到15路线，记下当前A的下一个节点是空（心里开心了起来要完工了），然后把A的下一个节点设置为15的当前节点B
7分钟	到家了	完工，在回办公室的路上再开了一局
第二天	又有投诉	我你个*

最后由小黑维护完成后，景点的路标会出现a指向b,b指向a的情况

在这里插入图片描述

到这里就弄明白了为什么hashMap会在并发场景下导致死循环的问题

五、JDK1.8的新结构----红黑树

为了解决JDK1.7中的死循环问题，在jDK1.8中新增加了红黑树，即在数组长度大于64，同时链表长度大于8的情况下，链表将转化为红黑树。同时使用尾插法。当数据的长度退化成6时，红黑树转化为链表。

1.为什么非要使用红黑树呢？

这个选择是综合各种考虑之下的，既要put效率很高，同时也要get效率很高，红黑树就是其中一种。

2.什么是红黑树？

首先讲一下二叉查找树：

1.左子树上所有结点的值均小于或等于它的根结点的值。

2.右子树上所有结点的值均大于或等于它的根结点的值。

3.左、右子树也分别为二叉排序树。

在这里插入图片描述

如果要查找10。先看根节点9，由于10 > 9，因此查看右孩子13；由于10 < 13，因此查看左孩子11；由于10 < 11，因此查看左孩子10，发现10正是要查找的节点；这种方式查找最大的次数等于二叉查找树的高度。复杂度为O(log n)，但是二叉查找树也有他的缺点，如果二叉树有如下的三个节点：

在这里插入图片描述

当插入7，6，5，4这四个节点时：

在这里插入图片描述

随着树的深度增加，那么查找的效率就变得非常差了，变成了O(n)，就不具有二叉查找树的优点了。

那么红黑树就诞生了，红黑树是一种自平衡的二叉查找树。

3.红黑树的特性

节点是红色或黑色；
根节点是黑色；
每个叶子节点都是黑色的空节点（NIL节点）；
每个红色节点的两个子节点都是黑色。(从每个叶子到根的所有路径上不能有两个连续的红色节点)；
从任一节点到其每个叶子的所有路径都包含相同数目的黑色节点；
每次新插入的节点都必须是红色。

如图就是一颗红黑树在这里插入图片描述

红黑树从根节点到叶子节点的最长路径不会超过最短路径的两倍。但是红黑树有时候在插入和删除过程中会破坏自己的规则，比如插入节点26，如下图

在这里插入图片描述

由于父节点27是红色节点，因此这种情况打破了红黑树的规则4（每个红色节点的两个子节点都是黑色），必须进行调整，使之重新符合红黑树的规则。

常用的调整方法有三种：

左旋转
右旋转
变色

4.红黑树的应用

1.TreeSet 2.TreeMap 3.HashMap（JDK8）

一枚萤火虫

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
HashMap之扩容原理＜通俗易懂版＞

首先讲一下二叉查找树：1.左子树上所有结点的值均小于或等于它的根结点的值。2.右子树上所有结点的值均大于或等于它的根结点的值。3.左、右子树也分别为二叉排序树。如果要查找10。先看根节点9，由于10 > 9，因此查看右孩子13；由于10 < 13，因此查看左孩子11；由于10 < 11，因此查看左孩子10，发现10正是要查找的节点；这种方式查找最大的次数等于二叉查找树的高度。
复制链接

扫一扫