HashMap

最新推荐文章于 2022-03-09 15:20:28 发布

啃不动的柠檬树

最新推荐文章于 2022-03-09 15:20:28 发布

阅读量208

点赞数

分类专栏： HashMap 文章标签： HashMap底层源码分析

本文链接：https://blog.csdn.net/qq_41318268/article/details/115161352

版权

HashMap 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

HashMap集合简介

概述

HashMap基于哈希表的Map接⼝口实现，是以key-value存储形式存在，即主要⽤用来存放键值对。它的key、value都可以为null。 HashMap 的实现不是同步的，这意味着它不是线程安全的。此外， HashMap中的映射不是有序的,位置由hashcode经过运算决定。

数据结构

在JDK1.8 之前 HashMap 由数组+链表数据结构组成的。
在JDK1.8 之后 HashMap 由数组+链表 +红⿊树数据结构组成的。

数据结构解析

JDK1.8 之前 HashMap 由数组+链表组成的，数组是 HashMap 的主体，链表则是主要为了了解决哈希冲突(两个对象调用的hashCode⽅法计算的哈希码值一致而导致计算的数组索引值相同)而存在的(“拉链法”解决冲突).JDK1.8 以后在解决哈希冲突时有了较大的变化，当链表长度大于阈值(或者红黑树的边界值，默认为 8)并且当前数组的长度大于64时【同时满足这两个条件】，此时此索引位置上的所有数据改为使用红⿊树存储。

注意：将链表转换成红黑树前会判断，即使阈值大于8，但是数组长度小于64，此时并不会将链表变为红黑树。⽽是选择进行数组扩容。

为什么要满足以上两个条件？

因为数组比较小的时候要尽量避开红黑树结构，这种情况下变为红黑树结构，反而会降低效率，因为红⿊树需要进行左旋，右旋，变色这些操作来保持平衡。同时数组⻓度⼩于64时，搜索时间相对要快些。所以综上所述为了提高性能和减少搜索时间，底层在阈值大于8并且数组长度大于64时，链表才转换为红黑树。具体可以参考 treeifyBin 方法。

当然虽然增了了红黑树作为底层数据结构，结构变得复杂了，但是阈值大于8并且数组长度大于64时，链表转换为红黑树时，效率也变的更⾼效。

小结

存取是无序的。
键和值都都可以是null，但是这些键中仅只能有一个是null。
键位置是唯一的，底层的数据结构控制键的位置。
jdk1.8之前数据结构是:链表 + 数组， jdk1.8之后是 : 链表 + 数组 + 红黑树。
阈值(边界值) > 8 并且数组长度大于64，才将链表转换为红黑树，变为红黑树的⽬的是为了高效的查询。

HashMap继承关系

源码

public class HashMap<K,V> extends AbstractMap<K,V>
    implements Map<K,V>, Cloneable, Serializable {
  // 省略
}

在这里插入图片描述

Cloneable是空接口，表示可以克隆。代表创建并返回HashMap对象的一个副本。
Serializable 序列化接口。属于标记性接口。HashMap对象可以被序列化和反序列化。
AbstractMap 父类提供了Map实现接口。以最大限度地减少实现此接口所需的⼯作。

通过上述继承关系我们发现一个很奇怪的现象，就是HashMap已经继承了AbstractMap而 AbstractMap类实现了Map接⼝口，那为什什么HashMap还要在实现Map接⼝口呢?同样在ArrayList中 LinkedList中都是这种结构。

据 Java集合框架的创始⼈人Josh Bloch描述，这样的写法是⼀个失误。在java集合框架中，类似这样的写法很多，最开始写Java集合框架的时候，他认为这样写，在某些地方可能是有价值的，直到他意识到搞错了。显然的，JDK的维护者，后来不认为这个⼩小的失误值得去修改，所以就这样存在下来了。

HashMap成员变量

序列化版本号

private static final long serialVersionUID = 362498820763181265L;

集合的初始化容量【16】( 必须是二的n次幂 )

// 默认的初始容量是16 -- 1<<4相当于1*2的4次方---1*16
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4;

集合的最大容量【2的30次方】

// 集合最大容量的上限是:2的30次幂
static final int MAXIMUM_CAPACITY = 1 << 30;

默认的负载因子，默认值是0.75

static final float DEFAULT_LOAD_FACTOR = 0.75f;

当链表的值超过8则会转红黑树(JDK1.8新增)

static final int TREEIFY_THRESHOLD = 8;

当链表的值小于6则会从红黑树转回链表

// 当桶(bucket)上的结点数小于这个值时树转链表
static final int UNTREEIFY_THRESHOLD = 6;

转化为红黑树对应的数组长度最小值

// 桶中结构转化为红黑树对应的数组长度最小的值
static final int MIN_TREEIFY_CAPACITY = 64;

当Map⾥面的数量超过这个值时，表中的桶才能进行树形化，否则桶内元素太多时会扩容，⽽不是树形化。目的是为了避免进⾏扩容、树形化选择的冲突，这个值不能⼩于 4 * TREEIFY_THRESHOLD (8)

table⽤来初始化(必须是二的n次幂)[重点]

// 存储元素的数组
transient Node<K,V>[] table;

table在JDK1.8中我们了解到HashMap是由数组加链表加红⿊树来组成的结构其中table就是HashMap 中的数组，jdk8之前数组类型是Entry<K,V>类型。从jdk1.8之后是Node<K,V>类型。只是换了个名字，都实现了一样的接口:Map.Entry<K,V>。负责存储键值对数据的。

⽤来存放缓存

// 存放具体元素的集合
transient Set<Map.Entry<K,V>> entrySet;

java语言的关键字，变量修饰符，如果用transient声明一个实例变量，当对象存储时，它的值不需要维持。换句话说，用transient关键字标记的成员变量不参与序列化过程。

当一个对象被序列化的时候，transient型变量的值不包括在序列化的表示中，然而非transient型的变量是被包括进去的。

HashMap中存放元素的个数[重点]

// 存放元素的个数，注意这个不等于数组的长度。
transient int size;

size为HashMap中K-V的实时数量，不是数组table的⻓度。

⽤来记录HashMap的修改次数

// 每次扩容和更改map结构的计数器
transient int modCount;

⽤来调整大小下一个容量的值计算方式为(容量*负载因子)

// 临界值 当实际⼤小(容量*负载因⼦)超过临界值时，会进行扩容
int threshold;

哈希表的加载因子[重点]


// 加载因子
final float loadFactor;

loadFactor加载因子，是⽤来衡量 HashMap 中元素满的程度，表示HashMap的疏密程度，可以影响hash操作到同一个数组位置的概率，计算HashMap的实时加载因子的方法为:size/capacity，⽽不是占用桶的数量去除以capacity。capacity 是桶的数量，也就是 table 的⻓度length。size是集合中实际存储元素的个数。

loadFactor太⼤导致查找元素效率低，太小导致数组的利用率低，存放的数据会很分散。loadFactor 的默认值为0.75f是官方给出的⼀个比较好的临界值。

当HashMap⾥面容纳的元素已经达到HashMap数组⻓度的75%时，表示HashMap太挤了，需要扩容，⽽而扩容这个过程涉及到 rehash、复制数据等操作，非常消耗性能。所以开发中尽量减少扩容的次数，可以通过创建HashMap集合对象时指定初始容量来尽量避免。

HashMap的构造方法

构造一个空的 HashMap ，默认初始容量(16)和默认负载因⼦(0.75)

// 构造一个无参数的构造方法
public HashMap() {
  // 将默认的加载因子0.75赋值给loadFactor，并没有创建数组
	this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted
}

构造⼀个具有指定的初始容量和默认负载因子(0.75)HashMap

源码：

// 构造一个指定容量⼤⼩的构造函数
public HashMap(int initialCapacity) {
	this(initialCapacity, DEFAULT_LOAD_FACTOR);
}

// 指定容量⼤小和加载因⼦的构造函数 initialCapacity: 指定的容量 loadFactor:指定的加载因⼦
public HashMap(int initialCapacity, float loadFactor) {
  // 判断初始化容量initialCapacity是否小于0
	if (initialCapacity < 0)
    // 如果⼩于0，则抛出非法的参数异常IllegalArgumentException
		throw new IllegalArgumentException("Illegal initial capacity: " +
				initialCapacity);
  // 判断初始化容量initialCapacity是否⼤于集合的最大容量MAXIMUM_CAPACITY->2的30次幂
	if (initialCapacity > MAXIMUM_CAPACITY)
    // 如果超过MAXIMUM_CAPACITY，会将MAXIMUM_CAPACITY赋值给initialCapacity
		initialCapacity = MAXIMUM_CAPACITY;
  // 判断负载因⼦loadFactor是否小于等于0或者是否是⼀个⾮数值
	if (loadFactor <= 0 || Float.isNaN(loadFactor))
    // 如果满足上述其中之一，则抛出非法的参数异常IllegalArgumentException
		throw new IllegalArgumentException("Illegal load factor: " +
				loadFactor);
  // 将指定的加载因⼦赋值给HashMap成员变量的负载因子loadFactor
	this.loadFactor = loadFactor;
  // tableSizeFor(initialCapacity) 判断指定的初始化容量是否是2的n次幂，如果不是那么会变为⽐指定初始化容量大的最小的2的n次幂。
	this.threshold = tableSizeFor(initialCapacity);
}

案例：

@Test
public void test_hash_map_con_in_lo(){
  // 自定义初始化容量和加载因子
	HashMap<Integer, String> map = new HashMap<>(32, 0.75f);
}

如果这个构造函数的initialCapacity小于0，将会抛出非法异常IllegalArgumentException。
如果loadFactor的值是isNaN，则会抛出非法异常IllegalArgumentException。

构造一个包含另一个Map的构造函数和默认负载因子(0.75)

源码：

public HashMap(Map<? extends K, ? extends V> m) {
	this.loadFactor = DEFAULT_LOAD_FACTOR;
  // 负载因子loadFactor变为默认的负载因子0.75
	putMapEntries(m, false);
}

tableSizeFor方法,返回比指定初始化容量大的最小的2的n次幂

static final int tableSizeFor(int cap) {
	int n = cap - 1;
	n |= n >>> 1;
	n |= n >>> 2;
	n |= n >>> 4;
	n |= n >>> 8;
	n |= n >>> 16;
	return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}

符号解析

右移符号。比如给定的值为5【0101】，右移一位为2【0010】。
|符号为或运算。比如给定的值11 | 15,11对应的二进制【1011】，15对应的二进制【1111】，11 | 15结果为【1111】15。

源码分析

当在实例化HashMap实例时，如果给定了initialCapacity(假设是5)，由于HashMap的 capacity必须都是2的幂，因此这个方法用于找到大于等于initialCapacity(假设是5)的最小的2的幂。initialCapacity如果就是2的幂，则返回的还是这个数)。

为什么要对cap做减1操作【int n = cap - 1】？

这是为了防⽌，如果cap已经是2的幂，⼜没有执行这个减1操作，则执行完后面的几条无符号右移操作之后，返回的capacity将是这个cap的2倍。假如cap的值为8，经过上面的计算得到的还是8。

计算举例

以方法tableSizeFor(int cap)举例测试的数 cap = 65
        int n = cap - 1; ===>>>>  n = 65 - 1 = 64
        64 对应二进制 0100 0000 
        n >>> 1       
            右移1位     0100 0000 ===>>>> 0010 0000
            n |= n >>> 1 对应于 0100 0000 | 0010 0000 = 0110 0000 【96】

        n >>> 2       
            右移2位     0110 0000 ===>>>> 0001 1000 
            n |= n >>> 2 对应于 0110 0000 | 0001 1000 = 0111 1000 【120】

        n >>> 4       
            右移4位     0111 1000 ===>>>> 0000 0111
        n |= n >>> 4 对应于 0111 1000 | 0000 0111 = 0111 1111 【127】

        n >>> 8
            右移8位     0111 1111 ===>>>> 0000 0000
            n |= n >>> 8 对应于 0111 1111 | 0000 0000 = 0111 1111 【127】

        n >>> 16
            右移16位     0111 1111 ===>>>> 0000 0000
            n |= n >>> 16 对应于 0111 1111 | 0000 0000 = 0111 1111 【127】

        最后执行  return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1; 返回128【128为2的7次幂，加一的原因是凑成整数次幂】

putMapEntries添加键值对到集合中

// m：给定的集合。evict：最初构造此映射时为false。如果给定的集合为null，将会抛出空指针异常NullPointerException
final void putMapEntries(Map<? extends K, ? extends V> m, boolean evict) {
  // 获取给定集合的长度
	int s = m.size();
  // 判断给定的集合长度是否大于0
	if (s > 0) {
    // 判断table是否已经初始化
		if (table == null) { // pre-size
      // 未初始化，s为m的实际元素个数。预先计算一个容量ft。这里为什么加1呢？有啥特殊的含义吗？
			float ft = ((float)s / loadFactor) + 1.0F;
      // 上面计算的容量不小于最大值将这个值赋值给t，否则赋值给最大值
			int t = ((ft < (float)MAXIMUM_CAPACITY) ?
					(int)ft : MAXIMUM_CAPACITY);
      // 判断这个容量是否大于threshold，大于就对这个容量进行格式化，格式为2的幂
			if (t > threshold)
				threshold = tableSizeFor(t);
		}
    // 之前的数组中有元素，判断参数中的数组长度是否大于数组容量
		else if (s > threshold)
      // 扩容
			resize();
    // 遍历给定的集合
		for (Map.Entry<? extends K, ? extends V> e : m.entrySet()) {
      // 获取给定集合每个键值对的k和v
			K key = e.getKey();
			V value = e.getValue();
      // 将每一个entry的键值对放到数组中
			putVal(hash(key), key, value, false, evict);
		}
	}
}

float ft = ((float)s / loadFactor) + 1.0F这一行代码中为什么要加1.0F？

问题出现的源码
float ft = ((float)s / loadFactor) + 1.0F;
int t = ((ft < (float)MAXIMUM_CAPACITY) ? (int)ft : MAXIMUM_CAPACITY);

s/loadFactor的结果是⼩数，加1.0F与(int)ft相当于是对小数做一个向上取整以尽可能的保证更大容量，更大的容量能够减少resize的调用次数。所以 + 1.0F是为了获取更大的容量。
例如:原来集合的元素个数是6个，那么6/0.75是8，是2的n次幂，那么新的数组⼤小就是8了。
然后原来数组的数据就会存储到长度是8的新的数组中了，这样会导致在存储元素的时候，容量不够，还得继续扩容，那么性能就会降低了，而如果+1呢，数组长度直接变为16了，这样可以减少数组的扩容次数，从而提高效率。

HashMap的put方法

1、先通过hash值计算出key映射到哪个桶;
2、如果桶上没有发生哈希碰撞冲突，则直接插⼊;
3、如果出现了哈希碰撞冲突，则需要处理冲突。【处理方式一：红黑树】如果该桶使用红黑树处理冲突，则调用红黑树的方法插入数据;【处理方式二：链表】否则采用传统的链式⽅法插入。如果链的长度达到临界值，则把链转变为红黑树;
4、如果桶中存在重复的键，则为该键替换新值value;
5、如果size⼤于阈值threshold，则进行扩容;

方法	描述
public V put(K key, V value)	添加方法
static final int hash(Object key)	求哈希值方法
final V putVal(int hash, K key, V value, boolean onlyIfAbsent, boolean evict)	实际的添加键值对的方法

public V put(K key, V value)添加方法

源码

public V put(K key, V value) {
	return putVal(hash(key), key, value, false, true);
}

源码分析

HashMap提供了put方法用于添加元素，从源码中可以看到这个方法调用了putVal方法来真正的添加元素
从源码中我们也可以看到putVal方法只是给put方法调用的一个方法，并没有提供给用户使⽤。所以下面的源码分析中将重点分析putVal⽅法。

在这个map中将指定的key和指定的val做关联，如果这个map之前已经有一个映射对于这个指定的key，那么这个key对应的旧的val将会被替换。

static final int hash(Object key)求哈希值方法

源码

// 获取给定的key对应的哈希值
static final int hash(Object key) {
  // 定义一个变量h,用于接收给定key对应的hashCode
	int h;
  // 返回这个给定key的哈希值
	return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

(key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16)解析

如果key等于null;可以看到当key等于null的时候也是有哈希值的，返回的是0。
如果key不等于null;首先计算出key的hashCode赋值给h,然后与h无符号右移16位后的二进制进行按位异或运算得到最终的hash值。
HashMap是支持Key和value为空的。
HashTable是直接⽤Key来获取HashCode所以key为空会抛异常，也可以从源码中看出value为空也抛出空指针异常，并且HashTable的源码注释中有这么一句注释@exception NullPointerException if the key or value is。

&与运算和^异或运算

&与运算
运算规则:相同的二进制数位上，都是1的时候，结果为1，否则为零。
案例：5 & 11 = 1
	5   0101
&	11  1011
………………………………
结果： 0001【运算结果：1】

^异或运算
运算规则:相同的二进制数位上，数字相同，结果为0，不同为1。
案例：5 ^ 11 = 14
	5   0101
^	11  1011
………………………………
结果： 1110【运算结果：14】

(h = key.hashCode()) ^ (h >>> 16)演示

h = key.hashCode(): 1111 1111 1111 1111 1111 1010 1100 1010      这个值代表哈希code值
………………………………………………………………………………………………………………………………………………………………………………………………………………………………
						h	: 1111 1111 1111 1111 1111 1010 1100 1010
					h >>>16 : 0000 0000 0000 0000 1111 1111 1111 1111 
		      h ^ (h >>> 16): 1111 1111 1111 1111 0000 0101 0011 0101
………………………………………………………………………………………………………………………………………………………………………………………………………………………………
(n - 1)&hash计算的是在集合中的插入桶的位置
						 n - 1: 0000 0000 0000 0000 0000 0000 0000 1111【假设的容量为16-1=15】
						  hash:	1111 1111 1111 1111 0000 0101 0011 0101【这个是上面高16位和低16位异或得到的】
			       &与运算的结果:	0000 0000 0000 0000 0000 0000 0000 0101  =>[5]
………………………………………………………………………………………………………………………………………………………………………………………………………………………………
【重点】假如现在扩容，这个容量变为了32，那么上面计算的索引为5，到扩容后的集合的位置可能是5或者是21

(n - 1)&hash计算的是在集合中的插入桶的位置
						 n - 1: 0000 0000 0000 0000 0000 0000 0001 1111【假设的容量为32-1=31】
						  hash:	1111 1111 1111 1111 0000 0101 0011 0101【这个是上面高16位和低16位异或得到的】
			       &与运算的结果:	0000 0000 0000 0000 0000 0000 0001 0101  =>[21]
                假如hash位置为0 :                                  0       =>[5]
………………………………………………………………………………………………………………………………………………………………………………………………………………………………

总结
1、高16 bit 不变，低16 bit 和高16 bit 做了⼀个异或运算(得到的 hashcode 转化为32位二进制，低16 bit和高16 bit做了⼀个异或)。
2、(n-1) & hash => 得到下标。 (n-1): n表示数组长度16，n-1就是15。
3、【取模运算】取余数本质是不断做除法，把剩余的数减去，运算效率要⽐位运算低。

为什么要使用这样的操作？

如果当n，即数组长度很⼩，假设是16的话，那么n-1二进制即为1111 ，这样的值和hashCode()直接做按位与操作，实际上只使用了哈希值的后4位。如果当哈希值的高位变化很大，低位变化很小，这样就很容易造成哈希冲突了，所以这里把高低位都利利用起来，从⽽解决了这个问题。

final V putVal实际的添加键值对的方法

参数解释

hash : key的hash值
 key : 原始Key
value: 要存放的值
onlyIfAbsent: 如果为true代表不更改现有的值 
evict: 如果为false表示table为创建状态

源码阅读

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
			   boolean evict) {
	HashMap.Node<K,V>[] tab; HashMap.Node<K,V> p; int n, i;
  // transient Node<K,V>[] table：表示存储Map集合中元素的数组。
  // (tab = table) == null表示将table赋值给tab,然后判断tab是否等于null，第⼀次添加的时候肯定是 null。
  // (n = tab.length) == 0 表示获取tab的长度赋值给n，然后判断这个n是否等于0。
  // 执行完n = (tab = resize()).length，数组tab每个空间都是null。
	if ((tab = table) == null || (n = tab.length) == 0)
    // 获取初始化后的数组的容量。
    // resize()方法有两个用途。用途1:用来初始化HashMap中存储数据的table数组【resize源码可以看的到】。用途2:给table扩容（即*2）。
		n = (tab = resize()).length;
  // i = (n - 1) & hash 表示计算数组的索引赋值给i，即确定元素存放在哪个桶中。
  // p = tab[i = (n - 1) & hash]表示获取计算出的位置的数据赋值给节点p。
  // (p = tab[i = (n - 1) & hash]) == null 判断节点位置是否等于null。
  // 这个存放元素的位置是线程不安全的，可能会出现一个正在存这个位置，另一个线程取，出现异常安全 currenthashmap使用cas解决 
	if ((p = tab[i = (n - 1) & hash]) == null)
    // 创建一个新的节点存⼊到桶中，索引位置无元素，则创建Node对象，存入数组该位置中
		tab[i] = newNode(hash, key, value, null);
	else {// 如果索引位置已有元素，说明hash冲突，存入单链表或者红黑树中
    // 若已经存在一个节点，它的key与新值的key相等，则用变量e记录这个节点
    // e的作用就是干这个的，下面很长一段代码都是用来判断是否存在这样一个节点
		HashMap.Node<K,V> e; K k;
    // 位置有元素的前提下，判断该位置的key是不是和旧的key值相同
    // 若新值将要插入的位置已经存在的节点，它的key值与新值的key相等，则用变量e记录下它
		// p.hash == hash :p.hash表示原来存在数据的hash值，hash表示后添加数据的hash值，比较两个hash值是否相等
    // (k = p.key) == key :p.key获取原来数据的key赋值给k，key表示后添加数据的key，比较两个key的地址是否相同
    // key != null && key.equals(k):能够执行到这里说明两个key的地址值不相等，判断后添加的key是否等于null，如果不等于再调用equals⽅法判断两个key的内容是否相等。
    if (p.hash == hash &&
				((k = p.key) == key || (key != null && key.equals(k))))
      // e现在为旧值；两个元素哈希值相等，并且key的值也相等，将旧的元素整体对象赋值给e，用e来记录
			e = p;
    // 该位置有元素的前提下，hash值不相等或者key不相等;判断p是否为红黑树结点，若已经存在的节点是一个Tree节点，则使用树的方法将节点加入
    // 用e接收返回值，此处返回值e不为空，表示这棵树上存在与新值的key相同的节点   
		else if (p instanceof TreeNode)
      // 用e接收返回值，此处返回值e不为空，表示这棵树上存在与新值的key相同的节点  
			e = ((HashMap.TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
		else {// 该位置有元素的前提下，hash值不相等或者key不相等;则表示这个位置不是一棵树，而是一个链表
      // 遍历这个链表，binCount代表当前链表的长度，遍历到链表最后节点然后插⼊，采用循环遍历的方式，判断链表中是否有重复的key
			for (int binCount = 0; ; ++binCount) {
        // 若已经到达这个链表的最后一个节点，则用新值创建一个新的节点，并将其插入最后一个节点的末端
        // 判断当前位置的下一个元素是否为空
        // e = p.next 获取p的下一个元素赋值给e
        // (e = p.next) == null 判断p.next是否等于null，等于null，说明p没有下一个元素，那么此时到达了了链表的尾部，还没有找到重复的key,则说明HashMap没有包含该键，将该键值对插⼊链表中
				if ((e = p.next) == null) {
          // 用新值创建一个新的节点，并将其追加到单链表末尾
          // 注意第四个参数next是null，因为当前元素插入到链表末尾了，那么下一个节点肯定是null
          // 这种添加方式也满足链表数据结构的特点，每次向后添加新的元素
					p.next = newNode(hash, key, value, null);
          // 若插入这个节点后，这条链表的的节点数目已经到达了树化的阈值
          // 则将这条链表转换为红黑树
          // 超过树化阈值则进行树化操作 TREEIFY_THRESHOLD = 8，为啥-1 ，原因是binCount从0开始
          // int binCount = 0 :表示for循环的初始化值，从0开始计数。记录着遍历节点的个数。值是0表示第一个节点，1表示第⼆个节点。。。。7表示第八个节点，
					if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
            // 树形化，转换为红黑树【接下来单独开一篇文章介绍】
						treeifyBin(tab, hash);
          // 跳出循环
					break;
				}
        // 若在遍历这条链表的过程中，发现了一个节点，它的key值与新值的key相等，则不插入新节点
        // 且此时由于上面的操作，e已经指向了这个key的节点，不需要继续遍历了，跳出循环
				if (e.hash == hash &&
						((k = e.key) == key || (key != null && key.equals(k))))
          // 要添加的元素和链表中的存在的元素的key相等了，则跳出for循环。不用再继续比较了，直接执行下面的if语句去替换 if(e != null)
					break;
        // 上面判断的节点的下个节点是否为空，显然能执行到这下个节点不为空，并且key也不相同，
        // 换句话说下个节点下有元素，key不相同，将p节点赋值为当前节点，并且判断它的下个节点。
        // 新添加的元素和当前节点不相等，继续查找下一个节点。⽤于遍历桶中的链表，与前面的e = p.next组合，可以遍历链表。
				p = e;
			}
		}
    // 判断e是否为null，若不为空，表示在原来的节点中，存在一个key值与新值的key重复的节点
    // 在桶中找到key值、hash值与插⼊元素相等的结点
    // 也就是说通过上⾯的操作找到了重复的键，所以这里就是把该键的值变为新的值，并返回旧值 这里完成了put方法的修改功能
		if (e != null) { // existing mapping for key
      // 记录下这个节点原来的value值
			V oldValue = e.value;
      // 若onlyIfAbsent的值为false，或者原来的value是null，则用新值替换原来的值
			if (!onlyIfAbsent || oldValue == null)
				e.value = value;
      // 这是一个回调函数，但是在HashMap中是一个空函数
      // 看源码貌似是留给LinkedHashMap去扩充的
      // 感觉这个应该属于模板方法设计模式
			afterNodeAccess(e);
      // 返回旧value，如果在这里被返回，则不会执行剩下的代码
      // 也就是说，若执行到剩下的代码，表示并不是执行修改原有值的操作，而是插入了新节点
			return oldValue;
		}
	}
  // 能运行到这里，表示这次进行的是插入操作，而不是修改
  // modCount用来记录Map（仅指插入+删除）被修改的次数
  // 此处modCount+1，因为HashMap被修改了（新插入了一个节点）
	++modCount;
  // Map中元素的数量+1，并判断元素数量是否到达允许的最大值，若到达，则对Map进行扩容
	if (++size > threshold)
    // 扩容【接下来单独开一篇文章介绍】
		resize();
  // 与上面的afterNodeAccess类似，同为留给LinkedHashMap编写的回调函数   
	afterNodeInsertion(evict);
	return null;
}

final HashMap.Node<K,V>[] resize()扩容源码

源码解析

final Node<K,V>[] resize() {
    // 成员变量的table赋值给oldTab，就是将扩容前的table赋值给oldTab
    // 第一次添加元素的时候oldTab = table=null，再次添加的时候oldTab = table为添加之前的table数组
    Node<K,V>[] oldTab = table;
    // 记录Map当前的容量
    // 如果当前数组等于null长度返回0，否则返回当前数组的长度
    int oldCap = (oldTab == null) ? 0 : oldTab.length;
    // 记录Map允许存储的元素数量，即阈值（容量*负载因子），超过这个阀值要扩容 
    // 首次添加元素的时候初始化容量这个oldThr=threshold=0，再次添加元素的时候会将当前的扩容阀值赋值给oldThr
    int oldThr = threshold;
    // 声明两个变量，用来记录新的容量和阈值
    int newCap, newThr = 0;
    // 若当前容量不为0，表示存储数据的数组已经被初始化过
    if (oldCap > 0) {
        // 判断当前容量是否超过了允许的最大容量
        if (oldCap >= MAXIMUM_CAPACITY) {
            // 若超过最大容量，表示无法再进行扩容
            // 则更新当前的阈值为int的最大值，并返回旧数组
            threshold = Integer.MAX_VALUE;
            return oldTab;
        }
        // 将旧容量*2得到新容量，若新容量未超过最大容量值，并且旧容量大于默认初始容量（16），才则将旧阈值*2得到新阈值
        // 在以前的扩容阀值的基础上翻倍，假如以前的数组长度16 扩容阀值为 16*0.75=12
        // 扩容新的容量为之前的容量的2倍newCap = oldCap << 1 左移一位 原来的大小为 16 扩容以后位32  以此类推
        // 新的扩容阀值也为原来的2倍 newThr = oldThr << 1; 左移动1位  原来的扩容阀值为12 现在的阀值为24  以此类推
        else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                 oldCap >= DEFAULT_INITIAL_CAPACITY)
            // 将旧阈值*2得到新阈值
            newThr = oldThr << 1; // double threshold
    }
    // 若不满足上面的oldCap > 0，表示数组还未初始化，
    // 若当前阈值不为0，就将数组的新容量记录为当前的阈值；
    // 为什么这里的oldThr在未初始化数组的时候就有值呢？
    // 这是因为HashMap有两个带参构造器，可以指定初始容量，
    // 若你调用了这两个可以指定初始容量的构造器，
    // 这两个构造器就会将阈值记录为第一个大于等于你指定容量，且满足2^n的数（可以看看这两个构造器）
    else if (oldThr > 0) // initial capacity was placed in threshold
        newCap = oldThr;
    // 若上面的条件都不满足，表示你是调用默认构造器创建的HashMap，且还没有初始化table数组
    else {               // zero initial threshold signifies using defaults
        // 则将新容量更新为默认初始容量（16）
        // 阈值即为（容量*负载因子）12
        // 初始化容量会走这个
        newCap = DEFAULT_INITIAL_CAPACITY;
        newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
    }
    // 经过上面的步骤后，newCap一定有值，但是若运行的是上面的第二个分支时，newThr还是0
    // 所以若当前newThr还是0，则计算出它的值（容量*负载因子）
    if (newThr == 0) {
        // 再次扩容的阀值
        float ft = (float)newCap * loadFactor;
        // 获取新的阀值，小于最大容量就为上面计算的扩容阀值，否则为Integer.MAX_VALUE
        newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                  (int)ft : Integer.MAX_VALUE);
    }
    // 将计算出的新阈值更新到成员变量threshold上
    // 第一次添加的时候初始化threshold = newThr = 12
    threshold = newThr;
    @SuppressWarnings({"rawtypes","unchecked"})
    // 创建一个记录新数组用来存HashMap中的元素，容量为新的容量newCap
    // 若数组不是第一次初始化，则这里就是创建了一个两倍大小的新数组
    Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
    // 将新的的数组赋值给成员变量table
    table = newTab;
    // 判断旧数组是否等于空,不等于null开始将原来的数据加入到新数组中
    if (oldTab != null) {
        // 遍历原数组。把每个bucket都移动到新的bucket中，遍历旧的哈希表的每个桶，重新计算桶里元素的新位置
        for (int j = 0; j < oldCap; ++j) {
            Node<K,V> e;
            // 若原数组的j位置有节点存在，才进一步操作
            if ((e = oldTab[j]) != null) {
                // 清除旧数组对节点的引用,方便垃圾回收
                oldTab[j] = null;
                // 若table数组的j位置只有一个节点，则直接将这个节点放入新数组，位置可能在新的之前的位置也肯能在旧的容量加上旧的位置
                // 使用 & 替代 % 计算出余数，即下标
                if (e.next == null)
                    newTab[e.hash & (newCap - 1)] = e;
                // 若第一个节点是一个树节点，表示原数组这个位置的链表已经被转为了红黑树
                // 则调用红黑树的方法将节点加入到新数组中    
                else if (e instanceof TreeNode)
                    // 将红黑树进行拆分
                    ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                // 上面两种情况都不满足，表示这个位置是一条不止一个节点的链表
                // 接下来将原数组中的每一条链表的节点，放入到扩容后的新数组中
                // 原数组中一条链表上的所有节点，若将它们加入到扩容后的新数组中，它们最多将会分布在新数组中的两条链表上
                else { // preserve order
                    // 创建两个头尾节点，表示两条链表
                    // 因为旧链表上的元素放入新数组中，最多将变成两条链表
                    // 一条下标不变的链表，一条下标+oldCap
                    Node<K,V> loHead = null, loTail = null;
                    Node<K,V> hiHead = null, hiTail = null;
                    Node<K,V> next;
                    // 循环遍历原链表上的每一个节点
                    do {
                        // 记录当前节点的下一个节点
                        next = e.next;
                        // 注意：e.hash & oldCap这一步就是前面说的判断多出的这一位是否为1
                        // 若与原容量做与运算，结果为0，表示将这个节点放入到新数组中，下标不变
                        if ((e.hash & oldCap) == 0) {
                            // 若这是不变链表的第一个节点，用loHead记录
                            if (loTail == null)
                                loHead = e;
                            // 否则，将它加入下标不变链表的尾部    
                            else    
                                loTail.next = e;
                            // 更新尾部指针指向新加入的节点    
                            loTail = e;
                        }
                        // 若与原容量做与运算，结果为1，表示将这个节点放入到新数组中，下标将改变
                        else {
                            // 若这是改变下标链表的第一个节点，用hiHead记录
                            if (hiTail == null)
                                hiHead = e;
                            // 否则，将它加入改变下标链表的尾部    
                            else
                                hiTail.next = e;
                            // 更新尾部指针指向新加入的节点    
                            hiTail = e;
                        }
                    } while ((e = next) != null);
                    // 所有节点遍历完后，判断下标不变的链表是否有节点在其中
                    if (loTail != null) {
                        // 将这条链表的最后一个节点的next指向null
                        loTail.next = null;
                        // 同时将其放入新数组的相同位置
                        newTab[j] = loHead;
                    }
                    // 另一条链表与上同理
                    if (hiTail != null) {
                        hiTail.next = null;
                        // 这条链表放入的位置要在原来的基础上加上oldCap
                        newTab[j + oldCap] = hiHead;
                    }
                }
            }
        }
    }
    return newTab;
}

概括总结

这个resize扩容方法有两个作用。

首次添加元素的时候，执行的resize方法是初始化数组。
再次添加的元素，如果容量达到了扩容的阀值，需要进行扩容，执行的是扩容。

面试总结

HashMap什么时候才需要扩容？

当HashMap中的元素个数超过数组⼤小(数组⻓度)*loadFactor(负载因子)时，就会进行数组扩容， loadFactor的默认值(DEFAULT_LOAD_FACTOR)是0.75,这是⼀个折中的取值。也就是说，默认情况下，数组⼤⼩为16，那么当HashMap中的元素个数超过16×0.75=12(这个值就是阈值或者边界值threshold 值)的时候，就把数组的⼤小扩展为2×16=32，即扩⼤一倍(阈值也会随之翻倍)，然后重新计算每个元素在数组中的位置，⽽这是一个⾮常耗性能的操作，所以如果我们已经预知HashMap中元素的个数，我们可以创建一个预知大小的集合，那么预知元素的个数能够有效的提高HashMap的性能。

当HashMap中的其中一个链表的对象个数如果达到了8个，此时如果数组长度没有达到64，那么 HashMap会先扩容解决，如果已经达到了了64，那么这个链表会变成红黑树，节点类型由Node变成 TreeNode类型。当然，如果映射关系被移除后，下次执行resize⽅法时判断树的节点个数低于6，也会再把树转换为链表。

进⾏扩容，会伴随着一次重新hash分配，存放位置变化了吗？

进行扩容，会伴随着一次重新hash分配，并且会遍历hash表中所有的元素，是⾮常耗时的。在编写程序中，要尽量避免resize。

HashMap在进行扩容时，使⽤的rehash⽅式非常巧妙，因为每次扩容都是翻倍，与原来计算的 (n- 1)&hash的结果相比，只是多了一个bit位，所以节点要么就在原来的位置，要么就被分配到"原位置+旧容量"这个位置。

HashMap中treeifyBin、treeify源码分析

final void treeifyBin(HashMap.Node<K,V>[] tab, int hash)将当前桶下的链表中的Node节点类型转化为TreeNode节点类型，并转换为红黑树

节点添加完成之后判断此时节点个数是否大于TREEIFY_THRESHOLD临界值8，如果大于则将链表转换为红黑树，转换红黑树的方法 treeifyBin，整体代码如下:

if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st 
  // 转换为红黑树 tab表示数组名 hash表示哈希值 
  treeifyBin(tab, hash);

真的是只要TREEIFY_THRESHOLD大于临界值8就转化为红黑树吗？

(n = tab.length) < MIN_TREEIFY_CAPACITY这句源码。MIN_TREEIFY_CAPACITY的值为64。其实转换为红黑色的条件是有两个。一个条件是大于临界值8，另一个条件就是容量要大于等于64。

为什么容量要大于64才允许树形化？

如果数组很⼩，转换为红黑树，遍历效率要低很多。如果又这个条件，会进行扩容，那么就会重新计算哈希值，链表长度有可能就变短了，数据会放到数组中，这样相对来说效率⾼一些。

源码阅读

// tab数组名
// hash 表示哈希值
final void treeifyBin(Node<K,V>[] tab, int hash) {
	int n, index; Node<K,V> e;
	// 如果当前的数组为空或者数组的长度小于进行树形化的阀值64，就去扩容。而不是将节点转换为红黑树
	if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
		// 容量达不到64就去执行扩容方法
		resize();
	// 将数组中的元素取出赋值给e,e是哈希表中指定位置桶里的链表节点，从第一个开始，e:是头节点  
	else if ((e = tab[index = (n - 1) & hash]) != null) {
    // 执⾏到这⾥说明哈希表中的数组长度⼤于阈值64，开始进行树形化
		// hd红黑树的头节点，tl红黑树的尾节点
		TreeNode<K,V> hd = null, tl = null;
		// 以下这个循环就是将链表结构中的各个节点转换为数节点，也就是一串树节点，并没有转换为红黑树
		do {
			// 新创建一个树的节点，内容和当前链表节点e一致
			// 第一次的时候这个节点是一个根节点
      // 将Node节点转换为TreeNode节点
			TreeNode<K,V> p = replacementTreeNode(e, null);
			// 第一次循环的时候tl = null， 
			if (tl == null)
				// 将新创键的p节点赋值给红黑树的头结点
				hd = p;
			else {
				// p.prev = tl：将上一个节点p赋值给现在的p的前一个节点
				p.prev = tl;
				// tl.next = p;将现在节点p作为树的尾结点的下一个节点
				tl.next = p;
			}
			// 第一次循环的时候，将新创键的p节点赋值给红黑树的尾结点，此时，这个节点即是头节点也是尾节点
			tl = p;
			// e = e.next 将当前节点的下一个节点赋值给e,如果下一个节点，不等于null则回到上面继续取出链表中节点转换为红黑树    
		} while ((e = e.next) != null);
		// 让桶中的第一个元素即数组中的元素指向新建的红黑树的节点，以后这个桶里的元素就是红黑树而不是链表数据结构了
		// 将根节点放到了桶里面
		if ((tab[index] = hd) != null)
      // 转换为红黑树的真正的实现代码
			hd.treeify(tab);
	}
}

源码总结

根据哈希表中元素个数确定是扩容还是树形化。必须满足以下两个条件
如果是树形化遍历桶中的元素，创建相同个数的树形节点，复制内容，建⽴起联系。
然后让桶中的第⼀个元素指向新创建的树根节点，替换桶的链表内容为树形化内容。

转换为红黑树的源码分析

源码分析

// tab: 集合中的所有的Node节点,其实红黑树的第一个节点还是Node节点
final void treeify(Node<K,V>[] tab) {
	// 定义一个root节点
	TreeNode<K,V> root = null;
	// 遍历这个已经转换为树节点的链表，x指向当前节点、next指向下一个节点，首次遍历的时候这个节点就是根节点
	for (TreeNode<K,V> x = this, next; x != null; x = next) {
		// 将这个节点的下一个节点并强制转换为树节点
		next = (TreeNode<K,V>)x.next;
		// 初始化这个节点的左子树和右子树节点为null
		x.left = x.right = null;
		// 判断根节点是否为null，将当前的节点设置为根节点，也就是说有没有根节点
		// 第一次遍历，会进入这个判断，找出根节点
		if (root == null) {
			// 根节点的父节点设置为null
			x.parent = null;
			// 节点的颜色设置为黑
			x.red = false;
			// 将当前的这个节点赋值给根节点root，只有一个节点赋值成功，也就是说根节点指向当前节点
			root = x;
		}
		else {// 此时，已经存在根节点了
			// 获取当前节点的key赋值给k
			K k = x.key;
			// 获取当前节点的哈希值赋值给h
			int h = x.hash;
			// 定义key所属的Class
			Class<?> kc = null;
			// 真正的构建红黑树
			for (TreeNode<K,V> p = root;;) {
				// dir 标识方向，是在根节点的左侧还是右侧
				// ph标识当前树节点的hash值
				int dir, ph;
				// 当前根节点的key赋值给pk
				K pk = p.key;
				// 将根节点hash赋值给ph,如果当前根节点hash值大于当前链表节点的hash值
				if ((ph = p.hash) > h)
					// 标识当前链表节点会放到当前根节点的左侧
					dir = -1;
					// 将根节点hash赋值给ph,如果当前根节点hash值小于当前链表节点的hash值
				else if (ph < h)
					// 标识当前链表节点会放到当前根节点的右侧
					dir = 1;
					// 将根节点hash赋值给ph,如果当前根节点hash值等于当前链表节点的hash值
					// 如果当前链表节点的key实现了comparable接口，并且当前树节点和链表节点是相同Class的实例
					// 那么通过comparable的方式再比较两者。
					// 如果还是相等，最后再通过tieBreakOrder比较一次
					// dir = compareComparables(kc, k, pk)) == 0等于0代表还是平衡
				else if ((kc == null && (kc = comparableClassFor(k)) == null) ||
						(dir = compareComparables(kc, k, pk)) == 0)
					// 打破平衡
					dir = tieBreakOrder(k, pk);

				// 当前节点
				TreeNode<K,V> xp = p;
				// dir <= 0:当前链表节点放置在当前树节点的左侧，但不一定是该树节点的左子树，也可能是左子树的右子树或者更深层次的节点。
				// dir > 0:当前链表节点放置在当前树节点的右侧，但不一定是该树节点的右子树，也可能是右子树的左子树或者更深层次的节点。
				// 如果当前树节点不是叶子节点，那么最终会以当前树节点的左子树或者右子树为起始节点接着遍历，重新寻找自己（当前链表节点）的位置
				// 如果当前树节点就是叶子节点，那么根据dir的值，就可以把当前链表节点挂载到当前树节点的左或者右侧了。
				// 挂载之后，还需要重新把树进行平衡。平衡之后，就可以针对下一个链表节点进行处理了。
				if ((p = (dir <= 0) ? p.left : p.right) == null) {
					// 当前链表节点作为当前树节点的子节点
					x.parent = xp;
					if (dir <= 0)
						// 左子树
						xp.left = x;
					else
						// 右子树
						xp.right = x;
					// 插入一个节点后，调整红黑树
					root = balanceInsertion(root, x);
					break;
				}
			}
		}
	}
	// 链表节点都遍历完后，最终构造出来的树可能经历多次平衡操作，根节点目前到底是链表的哪一个节点是不确定的。
	// 要将红黑树的根节点移动至链表节点的第一个位置也就是 table[i]的位置。
	moveRootToFront(tab, root);
}

啃不动的柠檬树

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HashMap

目录HashMap集合简介概述数据结构数据结构解析为什么要满足以上两个条件？小结HashMap继承关系源码HashMap成员变量HashMap的构造方法构造一个空的 HashMap ，默认初始容量(16)和默认负载因⼦(0.75)构造⼀个具有指定的初始容量和默认负载因子(0.75)HashMap构造一个包含另一个Map的构造函数和默认负载因子(0.75)tableSizeFor方法,返回比指定初始化容量大的最小的2的n次幂符号解析源码分析为什么要对cap做减1操作【int n = cap - 1】？计算举例
复制链接

扫一扫