一. HashMap 概述
HashMap根据键的 hashCode 值存储数据, 大多数情况下可以直接定位到它的值, 因而具有很快的访问速度, 但遍历的顺序却是不确定的. HashMap 最多只允许一条记录的 key为null, 但是允许多条记录的 value值为null. HashMap是飞线程安全的, 即任一时刻如果有多条线程同时访问 HashMap, 可能会造成数据的不一致性.
在 JDK1.6, JDK1.7 中, HashMap 采用数组(位桶) + 链表实现, 在处个理 hash冲突时, 同一 hash值的元素都存储在一个链表中. 但是当位于一个桶中的元素较多, 即 hash值相等的元素较多时, 通过 key值依次查找的效率较低.
在 JDk1.8中, HashMap是采用数组 + 链表 + 红黑树 实现的. 当链表长度超过阈值(8)时. 将链表转换为红黑树, 从而提高了查找效率.
二.HashMap实现原理
1.HashMap底层有一个用来存储元素的数组, 当添加一个元素 (key-value对)时, 先计算该元素 key的hash值, 以确定此元素在数组中的插入位置, 但可能存在同一hash值的元素已被放在数组同一位置, 如果该元素与数组中的元素不相等(通过equals方法返回false), 这时就添加到同一hash值元素的后面, 它们在数组的同一位置, 但是形成了链表, 当链表长度大于 HashMap底层规定的长度时, 链表就转换为红黑树. 以提高查找效率.
HashMap原理图:
2. HashMap 底层数据结构
用来存储数据元素(key-value对)的底层数组. Node<K,V> 其实就是HashMap 底层的 key-value对, Node<K,V>代表了HashMap中的一个键值对.
Node<K,V> 的数据结构实现
static class Node<K,V> implements Map.Entry<K,V> {
final int hash;
final K key;
V value;
Node<K,V> next;
Node(int hash, K key, V value, Node<K,V> next) {
this.hash = hash;
this.key = key;
this.value = value;
this.next = next;
}
public final K getKey() { return key; }
public final V getValue() { return value; }
public final String toString() { return key + "=" + value; }
public final int hashCode() {
return Objects.hashCode(key) ^ Objects.hashCode(value);
}
public final V setValue(V newValue) {
V oldValue = value;
value = newValue;
return oldValue;
}
public final boolean equals(Object o) {
if (o == this)
return true;
if (o instanceof Map.Entry) {
Map.Entry<?,?> e = (Map.Entry<?,?>)o;
if (Objects.equals(key, e.getKey()) &&
Objects.equals(value, e.getValue()))
return true;
}
return false;
}
}
从上面源码可以看出, HashMap底层实际上是使用 Node<K,V>[] table 哈希桶数组来存储 Node 类型结点. Node 是HashMap的一个内部类, 实现了 Map.Entry接口, 本质上是一个键值对映射. 原理图中的一个黑色结点就是一个 Node.
3.HashMap的构造方法
先看一下主要的类字段代表的含义.
//如果使用空构造器,则默认HashMap的table数组初始化长度为(1<<4),也就是16
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4;
//所允许的table数组的最大长度
static final int MAXIMUM_CAPACITY = 1 << 30;
//负载因子0.75
static final float DEFAULT_LOAD_FACTOR = 0.75f;
//当链表长度达到8时,将链表转换为红黑树
static final int TREEIFY_THRESHOLD = 8;
//所能容纳的key-value对的极限
int threshold;
//负载因子
final float loadFactor;
//用于fail-fast机制的实现
transient int modCount;
//HashMap中存储的元素的个数
transient int size;
构造方法
有四种构造方法, 当使用无参构造来创建HashMap集合时, 负载因子默认为 0.75.
public HashMap() {
this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted
}
public HashMap(int initialCapacity) {
this(initialCapacity, DEFAULT_LOAD_FACTOR);
}
public HashMap(int initialCapacity, float loadFactor) {
if (initialCapacity < 0)
throw new IllegalArgumentException("Illegal initial capacity: " +
initialCapacity);
if (initialCapacity > MAXIMUM_CAPACITY)
initialCapacity = MAXIMUM_CAPACITY;
if (loadFactor <= 0 || Float.isNaN(loadFactor))
throw new IllegalArgumentException("Illegal load factor: " +
loadFactor);
this.loadFactor = loadFactor;
this.threshold = tableSizeFor(initialCapacity);
}
public HashMap(Map<? extends K, ? extends V> m) {
this.loadFactor = DEFAULT_LOAD_FACTOR;
putMapEntries(m, false);
}
三. HashMap的存取机制
put()方法源码分析
public V put(K key, V value) {
//调用hash()方法来实现对key值的hashCode值的高位运算
return putVal(hash(key), key, value, false, true);
}
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
Node<K,V>[] tab; Node<K,V> p; int n, i;
//如果HashMap底层数组引用为null,也就是说采用无参构造创建HashMap对象,第一次put元
//素,table数组自然为null
if ((tab = table) == null || (n = tab.length) == 0)
//使用resize()方法对数组进行扩容,默认长度为16,threshold值为16*0.75.
n = (tab = resize()).length;//此时n值为16
//如果table数组在下标(n-1)&hash处没有元素,则直接在该处存放元素
if ((p = tab[i = (n - 1) & hash]) == null)
tab[i] = newNode(hash, key, value, null);
else {//产生hash冲突(hash碰撞),开始处理冲突
Node<K,V> e; K k;
//判断table[i]的首个元素与key是否相同,这里的相同指hashCode以及equals()返回true
//如果相同在对value进行覆盖
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
e = p;
else if (p instanceof TreeNode)//判断table[i]是否为红黑树,如果是,则直接在树中插
//入键值对Node
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
else {
//此处为处理链表冲突
for (int binCount = 0; ; ++binCount) {
//遍历链表,如果为空,则直接将结点挂在链表后面,此处是尾插.
if ((e = p.next) == null) {
p.next = newNode(hash, key, value, null);
//判断链表中的结点是否超过8,如果已经达到8个,看是否需要改变存储结构
//使用treeifyBin()判断当前HashMap的长度,如果不足64,则只进行resize()
//扩容table数组,如果达到64,则将存储结构转换为红黑树
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
treeifyBin(tab, hash);
break;
}
//如果当前链表上存在相同的key值,则结束遍历
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e;
}
}
//e不为null,也就是存在相同的key值,对value进行覆盖,返回原先value的值
if (e != null) { // existing mapping for key
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
afterNodeAccess(e);
return oldValue;
}
}
//modCount用于fail-fast机制
++modCount;
//如果table数组中的元素大于当前门限值threshold(数组长度*负载因子),则对数组进行扩容
if (++size > threshold)
resize();//扩容为原数组长度的两倍
afterNodeInsertion(evict);
return null;
}
以上大概就是put()方法的源码解析, 下面再来细化分析一下部分功能实现.
1.确定哈希桶数组索引位置
当put进一个元素时, 定位到哈希桶数组的位置都是很关键的一步. HashMap使用hash算法来决定元素在数组中对应的位置.
这是hash()方法的源码:
取模运算:
这里hash算法本质上就是三步: 取key的hashCode值, 高位运算, 取模运算.
对于任意给定的对象, 只要它的hashCode()方法返回值相同, 那么程序得到的hash码值总是相同的.
得到hash值之后,其实是通过计算当前key的hash值对table数组的length长度取模运算从而得到在数组中的存储下标,HashMap会使用 (n-1)&hash 来确定该元素在数组中的索引位置, 而HashMap底层数组的长度总是2的n次方(扩容为原长度的2倍), 当length总是2的n次方时, (length-1)&hash 运算等价于对 length取模, 也就是hash%length. 但是&比%具有更高的效率.
高位运算算法: 通过hashCode()的高16位异或低16位实现的: (h=key.hashCode())^(h>>>16). 主要从速度, 功效, 质量来考虑. 可以在数组table的length比较小时, 也能保证到高位bit参与到hash的计算中.
注意!!! 在这里同一个桶中不一定都是存储的是hashCode相同的key, 因为虽然只有key元素的hashCode相同, 才会得到相同的hash码值, 但是不同的 hash(key) & (length-1) 的值可能是相等的, 所以在同一个桶中(也就是同一个数组的下标位置), 可能会存储不相同的hash码值. 也就是说在数组的同一个位置所存储的元素的key值的hashCode值并不一定都是相同的.
2.对put()方法的过程大概总结
(1)判断键值对数组table是否为null, 如果是, 则对数组进行扩容(默认长度为16, 存储的key-value对的最大值为16*0.75).
(2)根据计算key的hash值得到插入的数组索引, 如果数组当前索引位置没有元素, 则插入Node元素.
(3)如果当前数组对应索引位置存在元素, 则产生了hash冲突. 处理冲突: 判断数组对应下标table[i]中第一个元素是否与当前元素的key值相等, 这里的相等是指key元素的hashCode相同并且通过equals()方法比较返回true. 如果相同, 则覆盖数组中元素的value值
(4)如果不同, 则判断table[i] 是否为为红黑树结构, 如果是红黑树结构, 则直接在红黑树中插入.
(5)如果不是红黑树结构, 那就是链表结构来处理hash冲突了. 遍历链表, 如果链表中存在相同的key元素, (判断标准也是hashCode值相同并且通过equals()方法比较返回true), 则结束循环,覆盖当前连链表中的value值.
(6)如果链表中不存在相同的key元素, 则将带插入元素插入到链表尾部, 再判断当前链表的长度是否达到8, 如果达到8并且table数组的长度达到64, 则将链表存储结构转换成红黑树. 否则, 对数组进行扩容.
(7)插入成功后, 判断数组中的键值对(Node)个数是否超过最大容量threshold, 如果查出, 则对数组进行扩容.(扩容到原数组成都的2倍, 并且threshold也为原来的2倍).
3.JDK1.8使用红黑树改进
在JDK1.8中, HashMap处理hash冲突采用了红黑树结构, 采用链表来存储碰撞结点, 当碰撞很多时, 查询时间是 o(n), 1.8进行了性能上的提升, 当链表上的结点元素大于8时, 采用红黑树来存储碰撞元素, 查询时间复杂度为o(logn), 提升了查询的效率.
红黑树的工作原理: 当产生冲突的key 较少时, 只是简单的使用链表来存储冲突元素, 但冲突元素较多时, 链表查找的性能较差, 所以超过某个阈值后, HashMap将列表升级成一个红黑树, 使用哈希值作为树的分支变量, 如果两个哈希值不等, 但指向同一个桶的话, 较大的会插入到右子树中, 如果hash值相等, HashMap希望key值最好是实现了 Comparable接口的, 这样它可以按照顺序进行插入, 但这不是必须的, 如果没有实现 Comparable 接口, 则在发生严重hash碰撞时, 性能不会提高.
get()方法源码分析
public V get(Object key) {
Node<K,V> e;
//先计算出当前传入元素key的hash值,根据key的hash值去查找对应的value
return (e = getNode(hash(key), key)) == null ? null : e.value;
}
final Node<K,V> getNode(int hash, Object key) {
Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
//table数组不为null,而且根据key元素的hashCode计算出的数组索引下表所对应的数组元素不为
//null时,进行相应判断
if ((tab = table) != null && (n = tab.length) > 0 &&
(first = tab[(n - 1) & hash]) != null) {
//如果数组对应索引处的第一个元素与当前key元素相等,也就是两个对象hashCode相等并且通
//过equals()方法比较返回true,返回当前键值对对象(Node)
if (first.hash == hash && // always check first node
((k = first.key) == key || (key != null && key.equals(k))))
return first;
if ((e = first.next) != null) {
//如果当前table对应索引的存储结构为红黑树,在红黑树中进行查找
if (first instanceof TreeNode)
return ((TreeNode<K,V>)first).getTreeNode(hash, key);
do {
//当前存储结构为链表,则遍历链表,找出相同的key值
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
return e;
} while ((e = e.next) != null);
}
}
return null;
}
get()方法的实现比较简单, 首先会根据传入的参数key, 获取key相应的 hash值, 然后调用getNode()方法, 与通过传入key的hash值计算出来的对应数组索引中的第一个插入元素的key进行比较, 两个key元素的hashCode相同且通过equals()方法返回true, 则返回相应的Node元素, 获取value的值. 否则, 判断当前的存储结构, 如果是红黑树结构, 则在书中查找对应的key元素, 并返回; 如果为链表存储结构, 则遍历链表, 找出相同的key元素, 判断key相等的方法还是hashCode相同并且通过equals()返回 true. 如果找到, 则返回对应Node元素, 返回对应value的值.
四.HashMap的扩容机制
下面是resize()扩容机制的源码:
final Node<K,V>[] resize() {
Node<K,V>[] oldTab = table;
int oldCap = (oldTab == null) ? 0 : oldTab.length;
int oldThr = threshold;
int newCap, newThr = 0;
//如果旧表的长度不为空,对table数组进行扩容
if (oldCap > 0) {
if (oldCap >= MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
return oldTab;
}
//扩容为原长度的2倍
else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
oldCap >= DEFAULT_INITIAL_CAPACITY)
//将新表门限值设置为旧表门限值的2倍,也等同于新表长度*0.75
newThr = oldThr << 1; // double threshold
}
else if (oldThr > 0) // initial capacity was placed in threshold
newCap = oldThr;
else { // zero initial threshold signifies using defaults
//如果table引用为null,则设置默认长度为16(1<<4)
newCap = DEFAULT_INITIAL_CAPACITY;
//将门限值设置为16*0.75
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
}
if (newThr == 0) {
float ft = (float)newCap * loadFactor;
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
(int)ft : Integer.MAX_VALUE);
}
//设置门限值容量(所能容纳的最大键值对个数,超过门限值则对数组扩容)
threshold = newThr;
@SuppressWarnings({"rawtypes","unchecked"})
//创建Node[],并将赋给table.
Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
table = newTab;
//如果原数组不为空,则将原数组内容重新散列到新数组中
if (oldTab != null) {
//遍历数组
for (int j = 0; j < oldCap; ++j) {
Node<K,V> e;
//如果数组中的对应索引处存在元素
if ((e = oldTab[j]) != null) {
oldTab[j] = null;
//判断table[j]处的元素是否只有一个,如果是,则对元素进行再散列,存储到新数组
if (e.next == null)
//元素再散列,直接存储到新数组的e.hash&(newCap-1)位置处
newTab[e.hash & (newCap - 1)] = e;
else if (e instanceof TreeNode)//如果对应索引处的存储结构为红黑树
((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
else { // preserve order
//对应table[j]处的存储结构为链表
Node<K,V> loHead = null, loTail = null;
Node<K,V> hiHead = null, hiTail = null;
Node<K,V> next;
do {
//遍历链表,将链表拆成两队
//(e.hash&oldCap)为偶数一对,(e.hash&oldCap)为奇数一对
next = e.next;
if ((e.hash & oldCap) == 0) {
if (loTail == null)
loHead = e;
else
loTail.next = e;
loTail = e;
}
else {
if (hiTail == null)
hiHead = e;
else
hiTail.next = e;
hiTail = e;
}
} while ((e = next) != null);
//将偶数队放在新表原位置
if (loTail != null) {
loTail.next = null;
newTab[j] = loHead;
}
//将奇数队放在新表的 j+oldCap 位置
if (hiTail != null) {
hiTail.next = null;
newTab[j + oldCap] = hiHead;
}
}
}
}
}
//返回新数组的引用
return newTab;
}
table[j]处的存储结构如果为链表的话, 再散列的过程如下(大致解析):
HashMap底层的table数组长度总是2的n次幂, 在重新计算元素散列时, 没有直接使用 e.hash&(newCap-1), 而是使用 e.hash&oldCap==0|1 来判断元素位于新数组的索引位置. 其实这两个计算是等价的, 由于table数组长度总是为2, 那么在重新计算散列时, 不需要在与key元素的hash值(低位的 bit) 一一异或, 而是 newCap-1 对应二进制码的最高位 bit 与对应位key的hash值进行异或运算, 如果结果为0, 则元素保持元索引位置不变, 如果结果为1, 则元素在新表中的索引位置为 原索引位置+旧表的长度, 也就是 j+oldCap. 下面图片来源于某篇技术博客https://blog.csdn.net/ExcellentYuXiao/article/details/52344819, 可供参考: