HashMap 链表转红黑树的阈值为何为 8

底层开发人员

已于 2024-05-26 12:09:26 修改

阅读量702

点赞数 1

文章标签： java 学习笔记

于 2023-08-28 23:06:58 首次发布

本文链接：https://blog.csdn.net/weixin_42601307/article/details/132550030

版权

在哈希表中，我们将哈希桶作为单位面积，并将插入操作视为一系列随机事件，其中每个事件代表将一个 Key 映射到哈希桶内。因此，符号 $\lambda$ 表示每个桶内平均存储元素的数量，而 $P (X = k)$ 表示有 $k$ 个 Key 被映射到同一个哈希桶的概率。

根据 HashMap 源码注释的信息，当 $\lambda = 0.5$ 时，以下是 $k$ 从 0 到 8 对应的概率值：

* 0:    0.60653066
* 1:    0.30326533
* 2:    0.07581633
* 3:    0.01263606
* 4:    0.00157952
* 5:    0.00015795
* 6:    0.00001316
* 7:    0.00000094
* 8:    0.00000006

根据前述内容，可以得出在 $\lambda = 0.5$ 的情况下，哈希桶内哈希冲突元素数量 $k = 8$ 的概率极低。因此，HashMap 设定只有当链表长度超过 8 时，才会考虑将其转换为红黑树来处理，以在平衡查询效率和内存占用方面取得良好的性能平衡。

然而，还有一个重要问题需要解答：我们提到了 $\lambda$ 被设定为 0.5，而泊松分布概率方程的准确性与频率 $\lambda$ 的选择紧密相关。那么，Java是如何确定 $\lambda = 0.5$ 的呢？答案涉及到HashMap的扩容因子为0.75。

HashMap 扩容因子：
为了在容量和性能之间实现平衡，HashMap 将加载因子设置为 0.75。这一设定旨在维持合适的容器大小，以兼顾性能和空间的最佳折中。

首先，我们从一个理想情况出发：我们假设哈希算法能够完美地分散数据，因此在向 HashMap 中插入数据时，不会发生任何哈希冲突。然后，随着数据的连续插入，HashMap 会多次触发扩容操作。由于扩容因子设定为0.75，每次扩容前哈希表内的数据量占容器的比例为0.75，而每次扩容后，该比例为0.375。因此，在数据持续添加的过程中，哈希表内数据量的比例会在0.375和0.75之间呈锯齿状波动：

^
|
|           _______ 0.75
| /| /| /|    _____________0.5625
|/ |/ |/ |/ _______0.375
+--------------------------------->

在忽略方差的情况下，哈希表容量占比的期望值约为 0.5625，也就是说，平均每个桶内有 0.5 个元素，这便是源码中 $\lambda$ 值的由来。

参考资料：Hashmap 底层原理

底层开发人员

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
HashMap 链表转红黑树的阈值为何为 8

当设置的加载因子较大时，扩容的门槛也会相应提高，从而减少扩容的频率，并且占用的空间也会更少。相反地，当加载因子值较小时，扩容的门槛会降低，哈希冲突的可能性也会比较小，因此操作性能会比较高，但会占用更多的空间。) 的大小大约是常规节点大小的两倍，所以在选择是否进行转换时，应该优先考虑扩容而不是转换（具体表现为源码中只有当哈希表容量超过 64 时才进行链表转树，否则只进行 resize 扩容）。在哈希表中，我们以哈希桶为单位面积，并将插入操作看做一系列随机事件，其中每个事件表示将一个 Key 映射到哈希桶内。
复制链接

扫一扫