Java8中HashMap底层数据结构详解

最新推荐文章于 2023-05-25 13:39:14 发布

小崔同学24

最新推荐文章于 2023-05-25 13:39:14 发布

阅读量262

点赞数

分类专栏：学习总结文章标签：数据结构 java 链表

本文链接：https://blog.csdn.net/qq_23373299/article/details/129861065

版权

学习总结专栏收录该内容

19 篇文章 1 订阅

订阅专栏

HashMap底层数据结构

Java JDK1.8之后HashMap底层数据结构是数组+链表+红黑树

链表是为了解决hash冲突的，当数组中发生hash冲突的时候，会使用拉链法将冲突的元素连成一个链表，一个链表中都是冲突的元素。

那为什么还需要红黑树呢？

首先遍历一个链表，其平均查找的时间复杂度为O(n)，n为链表的长度。

当冲突越来越多的时候，链表的长度会越来越长，当我们查询一个元素的时候，会遍历整个的链表，会影响到HashMap的性能。

在Java8之后，当链表长度过长的时候，会将链表自动转换为红黑树，红黑树是一个自平衡的二叉树，其平均查找时间复杂度为O(logn)，能够优化查找的性能。（至于什么是红黑树，可以下次讲讲）

在Java8中，当链表的长度大于8的时候，链表就会转换为红黑树。当红黑树的节点个数小于6的时候，就会将红黑树转换为链表。

为什么临界值是8而不是其他数值呢？

因为经过实验证明，当临界值设为8的时候，可以更好的平衡时间和空间复杂度。最开始时使用链表，链表的的空间占用是比较小的，而且开始时链表很短，所以在查询效率上也不会有很大的问题，当冲突越来越多的话，链表的长度会越来越长，虽然链表的删除和插入的时间复杂度是O(1)，但是查询还是O(n)。

红黑树的删除、查找、插入的时间复杂度都是O(log n)，在数据量较大的情况下，其查找的时间复杂度会优于链表，但是实现红黑树的空间复杂度相对较高，所以8是考虑了时间和空间复杂度之后的一个最优结果。

在HashMap的源码中，也解释了为什么要设定阈值为8。

     * Because TreeNodes are about twice the size of regular nodes, we
     * use them only when bins contain enough nodes to warrant use
     * (see TREEIFY_THRESHOLD). And when they become too small (due to
     * removal or resizing) they are converted back to plain bins.  In
     * usages with well-distributed user hashCodes, tree bins are
     * rarely used.  Ideally, under random hashCodes, the frequency of
     * nodes in bins follows a Poisson distribution
     * (http://en.wikipedia.org/wiki/Poisson_distribution) with a
     * parameter of about 0.5 on average for the default resizing
     * threshold of 0.75, although with a large variance because of
     * resizing granularity. Ignoring variance, the expected
     * occurrences of list size k are (exp(-0.5) * pow(0.5, k) /
     * factorial(k)). The first values are:
     *
     * 0:    0.60653066
     * 1:    0.30326533
     * 2:    0.07581633
     * 3:    0.01263606
     * 4:    0.00157952
     * 5:    0.00015795
     * 6:    0.00001316
     * 7:    0.00000094
     * 8:    0.00000006
     * more: less than 1 in ten million

上面的意思是说，在随机hash的情况下，链表的长度服从泊松分布，各个长度的命中概率是依次递减的，当长度为8的时候，其概率仅有0.00000006，是一个非常小的概率。也就是说常规情况下，发生冲突的长度不会超过8，如果超过8了说明发生冲突的可能性会非常大，也就是说链表长度就会变长，这个时候就会转换为红黑树，以提升查找效率。