HashMap的底层原理

最新推荐文章于 2024-06-06 21:03:55 发布

九城风雪

最新推荐文章于 2024-06-06 21:03:55 发布

阅读量571

点赞数

分类专栏： Java 面试题文章标签：面试 java

原文链接：https://zhuanlan.zhihu.com/p/28587782

版权

Java 同时被 2 个专栏收录

20 篇文章 0 订阅

订阅专栏

面试题

13 篇文章 0 订阅

订阅专栏

HashMap的底层原理

在这里插入图片描述

上图中，白色部分是接口，黄色部分是要重点了解的，最好是看一遍源码，绿色部分已经过时，不常用了，但是面试中可能会问到。这里先简单的说一下这几个Map，TreeMap是基于树的实现，HashMap，HashTable，ConcurrentHashMap是基于hash表的实现，下文我们会介绍hash表。HashTable和HashMap在代码实现上，基本上是一样的，和Vector与Arraylist的区别大体上差不多，一个是线程安全的，一个非线程安全，忘记了的朋友可以去看这篇文章，传送门：Arraylist与Vector的区别。ConcurrentHashMap也是线程安全的，但性能比HashTable好很多，HashTable是锁整个Map对象，而ConcurrentHashMap是锁Map的部分结构，LinkedHashMap后续会单独开文讲解。

Map其实很简单，就是一个key，对应一个value。本章我们重点了解HashMap，话不多说，上代码：
在这里插入图片描述

执行构造函数，当我们看到这个new，第一反应应该是这货又在堆内存里开辟了一块空间。
在这里插入图片描述
构造函数如下：

在这里插入图片描述
似乎简单，就是初始化了一个负载因子

负载因子默认为0.75f，这个负载因子后续会详说。

嘿嘿，又看到了传说中的数组，数组里原对象是Node，来看一下Node是什么鬼

其实很简单，一些属性，一个key，一个value，用来保存我们往Map里放入的数据，next用来标记Node节点的下一个元素。目前还没有任何代码用到Node，我们只能从成员变量入手了
在这里插入图片描述

这两个就不多说了吧，一个是逻辑长度，一个是修改次数，ArrayList，LinkedList也有这两个属性，老规矩，我们来画一画

在这里插入图片描述

HashMap我们就初始化好了，成员变量table数组默认为null，size默认为0，负载因子为0.75f，初始化完成，往里添加元素，来看一下put的源码
在这里插入图片描述
就一行代码，调用了putVal方法，其中key是传进来的“张三”这个字符串对象，value是“张三”这个Person对象，调用了一个方法hash()，再看一下

看到了熟悉的hashCode，我们在前面的文章里已经强调过很多次了，重写equals方法的时候，一定要重写hashCode方法，因为key是基于hashCode来处理的。继续看putVal方法
在这里插入图片描述

resize方法比较复杂，这儿就不完全贴出来了，当放入第一个元素时，会触发resize方法的以下关键代码
在这里插入图片描述
再看这个DEFAULT_INITIAL_CAPACITY是什么东东

又是传说中的移位运算符，1 << 4 其实就是相当于16。

恩，这句是关键，当我们放入第一个元素时，如果底层数组还是null，系统会初始化一个长度为16的Node数组，像极了ArrayList的初始化。
在这里插入图片描述
最后返回new出来的数组，继续画图，由于篇幅有限，下图中省略了部分数组内容，注意，虽然数组长度为16，但逻辑长度size依然是0

继续执行下图中putVal方法里的红框内容
在这里插入图片描述

if ((p = tab[i = (n - 1) & hash]) == null)
    tab[i] = newNode(hash, key, value, null);

这段代码初学者可能看起来比较费劲，我们重写一下以便初学者能更好的理解，这两段代码等同，下面是重写后的代码，清晰了很多

i = (n - 1) & hash;//hash是传过来的，其中n是底层数组的长度，用&运算符计算出i的值 
p = tab[i];//用计算出来的i的值作为下标从数组中元素
if(p == null){//如果这个元素为null，用key,value构造一个Node对象放入数组下标为i的位置
     tab[i] = newNode(hash, key, value, null);
}

这个hash值是字符串“张三”这个对象的hashCode方法与hashMap提供hash()方法共同计算出来的结果，其中n是数组的长度，目前数组长度为16，不管这个hash的值是多少，经过(n - 1) & hash计算出来的i 的值一定在n-1之间。刚好是底层数组的合法下标，用i这个下标值去底层数组里去取值，如果为null，创建一个Node放到数组下标为i的位置。这里的“张三”计算出来的i的值为2，继续画图

继续添加元素“李四”，“王五”，“赵六”，一切正常，key：“李四”经过(n - 1) & hash算出来在数组下标位置为1，“王五”为7，“赵六”为9，添加完成后如下图

在这里插入图片描述

上图更趋近于堆内存中的样子，但看起来比较复杂，我们简化一下
在这里插入图片描述

上图是简化后的堆内存图。继续往里添加“孙七”，通过(n - 1) & hash计算“孙七”这个key时计算出来的下标值是1，而数组下标1这个位置目前已经被“李四”给占了，产生了冲突。相信大家在看本文的过程中也有这样的疑惑，万一计算出来的下标值i重了怎么办？我们来看一看HashMap是怎么解决冲突的。
在这里插入图片描述

上图中红框里就是冲突的处理，这一句是关键

p.next = newNode(hash, key, value, null);

也就是说new一个新的Node对象并把当前Node的next引用指向该对象，也就是说原来该位置上只有一个元素对象，现在转成了单向链表，继续画图
在这里插入图片描述

继续添加其它元素，添加完成后如下

在这里插入图片描述

到这里，我们的元素就添加完了。我们debug看一下

在这里插入图片描述

大框里的内容是链表的体现，小框里的内容是单元素的体现。

红框中还有两行比较重要的代码

if (binCount >= TREEIFY_THRESHOLD - 1) //当binCount>=TREEIFY_THRESHOLD-1
      treeifyBin(tab, hash);//把链表转化为红黑树

再看看TREEIFY_THRESHOLD的值
在这里插入图片描述
当链表长度到8时，将链表转化为红黑树来处理，由于树相关的内容本专栏还未讲解，红黑树的内容这里就不深入了。树在内存中的样子我们还是画个图简单的了解一下

在这里插入图片描述

在JDK1.7及以前的版本中，HashMap里是没有红黑树的实现的，在JDK1.8中加入了红黑树是为了防止哈希表碰撞攻击，当链表链长度为8时，及时转成红黑树，提高map的效率。在面试过程中，能说出这一点，面试官会对你加分不少。

注：本章所讲的移位运算符（如：“<<”）、位运算符（如：“&”），红黑树、哈希表碰撞攻击等，这里不做详解，大家有兴趣的话请在评论区留言，响应的人多的话，会单独开文讲解。
思考下面代码：

在这里插入图片描述
hash方法的实现：

在put放入元素时，HashMap又自己写了一个hash方法来计算hash值，大家想想看，为什么不用key本身的hashCode方法，而是又处理了一下？

参考：https://blog.csdn.net/qq_40817827/article/details/89069963

本文到这里先告一个段落，先做一个小结。

为什么HashMap数组第一次resize长度为16？

在这里插入图片描述

之前说过，从Key映射到HashMap数组的对应位置，会用到一个Hash函数：

index = Hash（“apple”）

如何实现一个尽量均匀分布的Hash函数呢？我们通过利用Key的HashCode值来做某种运算。

在这里插入图片描述
index = HashCode（Key） % Length ?

在这里插入图片描述
如何进行位运算呢？有如下的公式（Length是HashMap的长度）：

index = HashCode（Key） & （Length - 1）

下面我们以值为“book”的Key来演示整个过程：

1.计算book的hashcode，结果为十进制的3029737，二进制的101110001110101110 1001。

2.假定HashMap长度是默认的16，计算Length-1的结果为十进制的15，二进制的1111。

3.把以上两个结果做与运算，101110001110101110 1001 & 1111 = 1001，十进制是9，所以 index=9。

可以说，Hash算法最终得到的index结果，完全取决于Key的Hashcode值的最后几位。

在这里插入图片描述

假设HashMap的长度是10，重复刚才的运算步骤：

在这里插入图片描述
单独看这个结果，表面上并没有问题。我们再来尝试一个新的HashCode 101110001110101110 1011 ：

让我们再换一个HashCode 101110001110101110 1111 试试：

是的，虽然HashCode的倒数第二第三位从0变成了1，但是运算的结果都是1001。也就是说，当HashMap长度为10的时候，有些index结果的出现几率会更大，而有些index结果永远不会出现（比如0111）！

这样，显然不符合Hash算法均匀分布的原则。
反观长度16或者其他2的幂，Length-1的值是所有二进制位全为1，这种情况下，index的结果等同于HashCode后几位的值。只要输入的HashCode本身分布均匀，Hash算法的结果就是均匀的。

resize的相关概念
1.resize时，HashMap使用新数组代替旧数组，对原有的元素根据hash值重新就算索引位置，重新安放所有对象；resize是耗时的操作。
2.每次resize新的散列数组长度是原来的2倍
3.当HashMap散列数组的长度大于>2的30次幂将不再扩充数组，直接将数组大小设置为Integer.MAX_VALUE
4.当hash碰撞较多时，链表长度大于等于8将转换单链表至红黑树（Java8优化）

**size:**表示HashMap中存放的KV数量(为链表和树中的KV的总和)
capacity: 容量，指的是HashMap中桶的数量(table数组的一个元素视为一个桶)，默认为16，之后为2倍，容量为2的幂。

LoadFactor: 装载因子，用来衡量HashMap满的程度，默认为0.75f。计算方式为：
LoadFactor = size/capacity.

Threshold: 表示当HashMap的size大于Threshold时会执行resize操作。

注意事项

1.扩容是一个特别耗性能的操作，所以当程使用hashMap事，估算map的大小，初始化时候给一个大致的值，避免map频繁扩容。
2.负载因子是可以修改的，也可以大于1，但是建议不要轻易修改，除非情况非常特殊。

当负载因子较大时，去给table数组扩容的可能性就会少，所以占用内存较少(空间较少)，但是每条entry链上的元素就会相对较多，查询的时间也会增长（时间上较多）。
反之，负载因子较小时，给table数组扩容的可能性就会变高，那么内存占用空间较多，但是每条entry链上的元素就会相对较少，查询的时间也会减少。所以负载因子是时间和空间的一种折中方法，设置负载因子时要考虑自己追求的是时间开销还是空间开销。

注意：设置initCapacity的时候，尽量设置为2的幂，这样会去掉计算比initCapacity大，且为2的幂的运算。

3.HashMap是线程不安全的，不要在并发的环境中同时操作HashMap，建议使用ConcurrentHashMap。

4.JDK1.8中引入了红黑树很大程度上优化了HashMap的性能。

HashMap 线程不安全

总结

HashMap的最底层是数组来实现的，数组里的元素可能为null，也有可能是单个对象，还有可能是单向链表或是红黑树。

文中的resize在底层数组为null的时候会初始化一个数组，不为null的情况下会去扩容底层数组，并会重排底层数组里的元素。
本文到这里先告一个段落，先做一个小结。

参考：

https://zhuanlan.zhihu.com/p/28501879

https://zhuanlan.zhihu.com/p/78079598
https://zhuanlan.zhihu.com/p/28525770

https://blog.csdn.net/qq_40817827/article/details/89069963

九城风雪

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
HashMap的底层原理

HashMap的底层原理上图中，白色部分是接口，黄色部分是要重点了解的，最好是看一遍源码，绿色部分已经过时，不常用了，但是面试中可能会问到。这里先简单的说一下这几个Map，TreeMap是基于树的实现，HashMap，HashTable，ConcurrentHashMap是基于hash表的实现，下文我们会介绍hash表。HashTable和HashMap在代码实现上，基本上是一样的，和Vector与Arraylist的区别大体上差不多，一个是线程安全的，一个非线程安全，忘记了的朋友可以去看这篇文章，传送
复制链接

扫一扫