HashMap底层数据结构
Java JDK1.8之后HashMap底层数据结构是数组+链表+红黑树
链表是为了解决hash冲突的,当数组中发生hash冲突的时候,会使用拉链法将冲突的元素连成一个链表,一个链表中都是冲突的元素。
那为什么还需要红黑树呢?
首先遍历一个链表,其平均查找的时间复杂度为O(n),n为链表的长度 。
当冲突越来越多的时候,链表的长度会越来越长,当我们查询一个元素的时候,会遍历整个的链表,会影响到HashMap的性能。
在Java8之后,当链表长度过长的时候,会将链表自动转换为红黑树,红黑树是一个自平衡的二叉树,其平均查找时间复杂度为O(logn),能够优化查找的性能。(至于什么是红黑树,可以下次讲讲)
在Java8中,当链表的长度大于8的时候,链表就会转换为红黑树。当红黑树的节点个数小于6的时候,就会将红黑树转换为链表。
为什么临界值是8而不是其他数值呢?
因为经过实验证明,当临界值设为8的时候,可以更好的平衡时间和空间复杂度。最开始时使用链表,链表的的空间占用是比较小的,而且开始时链表很短,所以在查询效率上也不会有很大的问题,当冲突越来越多的话,链表的长度会越来越长,虽然链表的删除和插入的时间复杂度是O(1),但是查询还是O(n)。
红黑树的删除、查找、插入的时间复杂度都是O(log n),在数据量较大的情况下,其查找的时间复杂度会优于链表,但是实现红黑树的空间复杂度相对较高,所以8是考虑了时间和空间复杂度之后的一个最优结果。
在HashMap的源码中,也解释了为什么要设定阈值为8。
* Because TreeNodes are about twice the size of regular nodes, we
* use them only when bins contain enough nodes to warrant use
* (see TREEIFY_THRESHOLD). And when they become too small (due to
* removal or resizing) they are converted back to plain bins. In
* usages with well-distributed user hashCodes, tree bins are
* rarely used. Ideally, under random hashCodes, the frequency of
* nodes in bins follows a Poisson distribution
* (http://en.wikipedia.org/wiki/Poisson_distribution) with a
* parameter of about 0.5 on average for the default resizing
* threshold of 0.75, although with a large variance because of
* resizing granularity. Ignoring variance, the expected
* occurrences of list size k are (exp(-0.5) * pow(0.5, k) /
* factorial(k)). The first values are:
*
* 0: 0.60653066
* 1: 0.30326533
* 2: 0.07581633
* 3: 0.01263606
* 4: 0.00157952
* 5: 0.00015795
* 6: 0.00001316
* 7: 0.00000094
* 8: 0.00000006
* more: less than 1 in ten million
上面的意思是说,在随机hash的情况下,链表的长度服从泊松分布,各个长度的命中概率是依次递减的,当长度为8的时候,其概率仅有0.00000006,是一个非常小的概率。也就是说常规情况下,发生冲突的长度不会超过8,如果超过8了说明发生冲突的可能性会非常大,也就是说链表长度就会变长,这个时候就会转换为红黑树,以提升查找效率。