HashMap之扩容原理<通俗易懂版>

目录

一、什么是HashMap?

二、为什么要使用HashMap?

三、HashMap扩容为什么总是2的次幂?

四、JDk1.7HashMap扩容死循环问题

旅游公司维护旅游路线模型;

五、JDK1.8的新结构----红黑树

1.为什么非要使用红黑树呢?

2.什么是红黑树?

3.红黑树的特性

常用的调整方法有三种:

4.红黑树的应用


一、什么是HashMap?

HashMap是Java中常用的数据结构之一,它是一种键值对的集合,可以根据键快速地找到对应的值。HashMap的内部实现是通过一个数组来存储数据,每个数组元素是一个链表。当添加元素时,会根据键的哈希值来确定元素在数组中的位置,并将其添加到对应的链表中。

在这里插入图片描述

二、为什么要使用HashMap?

对于要求查询次数特别多,查询效率比较高同时插入和删除的次数比较少的情况下,通常会选择ArrayList,因为它的底层是通过数组实现的。对于插入和删除次数比较多同时在查询次数不多的情况下,通常会选择LinkedList,因为它的底层是通过链表实现的。

但现在同时要求插入,删除,查询效率都很高的情况下我们该如何选择容器呢? 那么就有一种新的容器叫HashMap,他里面既有数组结构,也有链表结构,所以可以弥补相互的缺点。而且HashMap主要用法是get()和put() 。

使用HashMap有以下几个优点:

  1. 快速查找:HashMap内部使用哈希表实现,可以根据键快速地找到对应的值,查找的时间复杂度为O(1)。这使得HashMap非常适合存储大量数据并需要频繁查找的场景。

  2. 高效插入和删除:HashMap的插入和删除操作也是基于哈希表的,时间复杂度同样为O(1)。这使得HashMap在需要频繁插入和删除元素的场景下表现出色。

  3. 动态扩容:HashMap内部使用数组来存储数据,当元素的数量超过数组的容量时,会自动扩容。这使得HashMap可以灵活地存储任意数量的元素,而不需要事先确定容量。

  4. 键值对的存储:HashMap是一种键值对的集合,可以根据键唯一地存储和获取对应的值。这使得HashMap非常适合存储需要根据键进行查找和操作的数据。

  5. 支持null键和null值:HashMap允许存储null键和null值,这在某些场景下非常方便。

三、HashMap扩容为什么总是2的次幂?

HashMap的扩容公式:initailCapacity * loadFactor = HashMap

其中initailCapacity是初始容量:默认值为16(懒加载机制,只有当第一次put的时候才创建)

在这里插入图片描述

其中loadFactor是负载因子:默认值为0.75

在这里插入图片描述

当HashMap中的元素越来越多的时候,碰撞的几率也就越来越高(因为数组的长度是固定的),所以为了提高查询的效率,就要对HashMap的数组进行扩容,数组扩容这个操作也会出现在ArrayList中,所以这是一个通用的操作,很多人对它的性能表示过怀疑,不过想想我们的“均摊”原理,就释然了,而在hashmap数组扩容之后,最消耗性能的点就出现了:原数组中的数据必须重新计算其在新数组中的位置,并放进去,这就是resize。 那么HashMap什么时候进行扩容呢?当hashmap中的元素个数超过数组大小loadFactor时,就会进行数组扩容,loadFactor的默认值为0.75,也就是说,默认情况下,数组大小为16,那么当hashmap中元素个数超过160.75=12的时候,就把数组的大小扩展为216=32,即扩大一倍,然后重新计算每个元素在数组中的位置,而这是一个非常消耗性能的操作,所以如果我们已经预知hashmap中元素的个数,那么预设元素的个数能够有效的提高hashmap的性能。比如说,我们有1000个元素new HashMap(1000), 但是理论上来讲new HashMap(1024)更合适,不过上面annegu已经说过,即使是1000,hashmap也自动会将其设置为1024。 但是new HashMap(1024)还不是更合适的,因为0.751000 < 1000, 也就是说为了让0.75 * size > 1000, 我们必须这样new HashMap(2048)才最合适,既考虑了&的问题,也避免了resize的问题。

值得提醒的是初始容量和负载因子也可以自己设定的。 使用的是位运算进行扩容,因为用乘法会影响CPU的性能,计算机不支持乘法运算,最终都会转化为加法运算。 在这里插入图片描述

HashMap扩容主要是给数组扩容的,因为数组长度不可变,而链表是可变长度的。从HashMap的源码中可以看到HashMap在扩容时选择了位运算,向集合中添加元素时,会使用(n - 1) & hash的计算方法来得出该元素在集合中的位置。只有当对应位置的数据都为1时,运算结果也为1,当HashMap的容量是2的n次幂时,(n-1)的2进制也就是1111111***111这样形式的,这样与添加元素的hash值进行位运算时,能够充分的散列,使得添加的元素均匀分布在HashMap的每个位置上,减少hash碰撞,下面举例进行说明。

当HashMap的容量是16时,它的二进制是10000,(n-1)的二进制是01111,与hash值得计算结果如下:

在这里插入图片描述

上面四种情况我们可以看出,不同的hash值,和(n-1)进行位运算后,能够得出不同的值,使得添加的元素能够均匀分布在集合中不同的位置上,避免hash碰撞。

下面就来看一下HashMap的容量不是2的n次幂的情况,当容量为10时,二进制为01010,(n-1)的二进制是01001,向里面添加同样的元素,结果为

在这里插入图片描述

可以看出,有三个不同的元素经过&运算得出了同样的结果,严重的hash碰撞了。导致某一个链表的长度特别长,影响查询的效率。

综上所述,HashMap计算添加元素的位置时,使用的位运算,这是特别高效的运算;另外,HashMap的初始容量是2的n次幂,扩容也是2倍的形式进行扩容,是因为容量是2的n次幂,可以使得添加的元素均匀分布在HashMap中的数组上,减少hash碰撞,避免形成链表的结构,使得查询效率降低!

有个问题:为啥不使用取模呢?因为取模运算速度比较低。

四、JDk1.7HashMap扩容死循环问题

HashMap是一个线程不安全的容器,在最坏的情况下,所有元素都定位到同一个位置,形成一个长长的链表,这样get一个值时,最坏情况需要遍历所有节点,性能变成了O(n)。 JDK1.7中HashMap采用头插法拉链表,所谓头插法,即在每次都在链表头部(即桶中)插入最后添加的数据。 死循环问题只会出现在多线程的情况下。 好多文章通过举例子,画数据结构变化过程的图来进行讲解。不够形象,不易理解。这里我通过一个生活模型来进行讲解;

旅游公司维护旅游路线模型;

如下图,图中路线池子对应的就是hashMap中的数组,每个旅游路线的链表就是hashMap中的hash碰撞产生的链表;

在这里插入图片描述

故事是这样的:游客买完了某个旅游路线后,旅游公司会开大巴把你拉到你购买的起点,然后游客自己跟着路标进行旅游即可。旅游公司一直运营的很好。但是偶尔会有时候用户会 投诉说路线有问题,把我们当傻子一样困死在线路中; 但是这种现象经常出现在新加了景点,然后重新维护旅游路线的路标时候,(这里也就对应的是hashMap进行添加元素并且扩容的场景); 我们知道旅游线路都是带有一定文化主题的。在一个线路中的景点在重新维护的的时候很可能还是在一组。但是为了防止游客觉得没有新意,往往仅仅会给路线改个名字,然后把线路倒过来,重新设置路标,然后继续使用(头插法) 后来经过分析原来是名字叫 病发 的领导经常喝酒,脑袋混了经常同时派多个人去维护同一个路线;

下面我们看看怎么出现问题的;我们已第一条旅游线路来举例子;也就是A->B->C这条路线;

这不这次 病发 先派 小红 去把1路线的路标倒过来排,并且改名为15路线;然后他没过1秒钟就忘了,然后又派 小黑 也去同时维护同一条路线; 小红是个急性子,想赶快维护好下班回家。小黑是个佛系躺平青年,慢悠悠的弄;

时间小红小黑
1分钟到达A到达A
2分钟1.记下下一个要去处理的景点是B,2.把A挪到15路线开头,3,把A的路标设置为空在这里插入图片描述1.把A挪到15路线开头,2.记下下一个景点是B,把A的路标设置为空 ,并前往B,在去B的的路上玩起了王者荣耀在这里插入图片描述
3分钟到达B,记下下一个景点C,把B挪到15路线,并把B的路标设置为A (头插法)在这里插入图片描述AB路上王者荣耀
4分钟到达C,发现没有下一个景点了,把C挪到15路线,并把C的路标设置为B在这里插入图片描述AB路上要输了,郁闷的往B景点走
5分钟完活,赶紧下班回家到达B,把B设置到15路线,把B的下一个景点设置为A(头插法),然后发现下一个要处理的节点是A,前往A在这里插入图片描述
6分钟到家了到达A,把A设置到15路线,记下当前A的下一个节点是空(心里开心了起来要完工了),然后把A的下一个节点设置为15的当前节点B在这里插入图片描述
7分钟到家了完工,在回办公室的路上再开了一局
第二天又有投诉我*你个**

最后由小黑维护完成后,景点的路标会出现a指向b,b指向a的情况

在这里插入图片描述

到这里就弄明白了为什么hashMap会在并发场景下导致死循环的问题

五、JDK1.8的新结构----红黑树

为了解决JDK1.7中的死循环问题, 在jDK1.8中新增加了红黑树,即在数组长度大于64,同时链表长度大于8的情况下,链表将转化为红黑树。同时使用尾插法。当数据的长度退化成6时,红黑树转化为链表。

1.为什么非要使用红黑树呢?

这个选择是综合各种考虑之下的,既要put效率很高,同时也要get效率很高,红黑树就是其中一种。

2.什么是红黑树?

首先讲一下二叉查找树:

1.左子树上所有结点的值均小于或等于它的根结点的值。

2.右子树上所有结点的值均大于或等于它的根结点的值。

3.左、右子树也分别为二叉排序树。

在这里插入图片描述

如果要查找10。先看根节点9,由于10 > 9,因此查看右孩子13;由于10 < 13,因此查看左孩子11;由于10 < 11,因此查看左孩子10,发现10正是要查找的节点;这种方式查找最大的次数等于二叉查找树的高度。 复杂度为O(log n),但是二叉查找树也有他的缺点,如果二叉树有如下的三个节点:

在这里插入图片描述

当插入7,6,5,4这四个节点时:

在这里插入图片描述

随着树的深度增加,那么查找的效率就变得非常差了,变成了O(n),就不具有二叉查找树的优点了。

那么红黑树就诞生了,红黑树是一种自平衡的二叉查找树。

3.红黑树的特性
  1. 节点是红色或黑色;

  2. 根节点是黑色;

  3. 每个叶子节点都是黑色的空节点(NIL节点);

  4. 每个红色节点的两个子节点都是黑色。(从每个叶子到根的所有路径上不能有两个连续的红色节点);

  5. 从任一节点到其每个叶子的所有路径都包含相同数目的黑色节点;

  6. 每次新插入的节点都必须是红色。

如图就是一颗红黑树 在这里插入图片描述

红黑树从根节点到叶子节点的最长路径不会超过最短路径的两倍。但是红黑树有时候在插入和删除过程中会破坏自己的规则,比如插入节点26,如下图

在这里插入图片描述

由于父节点27是红色节点,因此这种情况打破了红黑树的规则4(每个红色节点的两个子节点都是黑色),必须进行调整,使之重新符合红黑树的规则。

常用的调整方法有三种:
  1. 左旋转

  2. 右旋转

  3. 变色

4.红黑树的应用

1.TreeSet 2.TreeMap 3.HashMap(JDK8)

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值