本文分析是基于JDK11中的HashMap源码
概念
HashMap是由数组+链表组成, 它是线程不安全的, 且允许key和value的值为null。遍历时无序。
在JDK1.8中, 当数组中的元素大于64并且链表元素大于8时会转换为红黑树结构。
HashMap中的数组又称为哈希桶, 每个桶里存放的是链表, 链表中的每个节点就是HashMap的元素。
哈希桶的长度为2的N次方
基本组成
HashMap继承了AbstractMap, 实现了Map, Cloneable, Serializable接口
public class HashMap<K,V> extends AbstractMap<K,V>
implements Map<K,V>, Cloneable, Serializable {
}
结构
属性
//默认初始容量16
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4;
static final int TREEIFY_THRESHOLD = 8;
static final int UNTREEIFY_THRESHOLD = 6;
/*
最小树形化容量阈值: 当哈希表中的容量 > 该值时, 才允许转换为红黑树
为了避免进行扩容、树形化选择的冲突, 此值不能小于4*TREEIFY_THRESHOLD
*/
static final int MIN_TREEIFY_CAPACITY = 64;
//最大容量 2的30次方
static final int MAXIMUM_CAPACITY = 1 << 30;
//默认的加载因子
static final float DEFAULT_LOAD_FACTOR = 0.75f;
//哈希桶, 存放链表 长度是2的N次方,初始化时为0
transient Node<K,V>[] table;
//HashMap的元素数量的阈值, 当HashMap内元素数量超过阈值时, 会发生扩容resize()
int threshold;
//加载因子,用于计算哈希表元素数量的阈值。 threshold = 哈希桶.length * loadFactor;
final float loadFactor;
构造方法
//默认构造方法, 加载因子默认为0.75f
public HashMap() {
this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted
}
//制定初始化容量的构造方法
public HashMap(int initialCapacity) {
this(initialCapacity, DEFAULT_LOAD_FACTOR);
}
//新建一个HashMap, 同时将另一个map m中的所有元素加入表中
public HashMap(Map<? extends K, ? extends V> m) {
this.loadFactor = DEFAULT_LOAD_FACTOR;
putMapEntries(m, false);
}
//制定初始化容量以及加载因子
public HashMap(int initialCapacity, float loadFactor) {
if (initialCapacity < 0)
throw new IllegalArgumentException("Illegal initial capacity: " +
initialCapacity);
if (initialCapacity > MAXIMUM_CAPACITY)
initialCapacity = MAXIMUM_CAPACITY;
if (loadFactor <= 0 || Float.isNaN(loadFactor))
throw new IllegalArgumentException("Illegal load factor: " +
loadFactor);
this.loadFactor = loadFactor;
this.threshold = tableSizeFor(initialCapacity);
}
扩容方法
final Node<K,V>[] resize() {
//oldTab 为当前表的哈希桶
Node<K,V>[] oldTab = table;
//当前哈希桶的容量 length
int oldCap = (oldTab == null) ? 0 : oldTab.length;
//当前的阈值
int oldThr = threshold;
//初始化新的容量和阈值为0
int newCap, newThr = 0;
if (oldCap > 0) { //如果当前容量大于0
if (oldCap >= MAXIMUM_CAPACITY) { //如果当前容量已经到达上限
//则设置阈值是2的31次方-1 并返回哈希桶不再扩容
threshold = Integer.MAX_VALUE;
return oldTab;
}
else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
oldCap >= DEFAULT_INITIAL_CAPACITY) //如果旧的容量大于等于默认初始容量16
//新阈值等于旧阈值的两倍
newThr = oldThr << 1;
}
else if (oldThr > 0) //如果当前表是空的,但是有阈值。代表是初始化时指定了容量、阈值的情况
newCap = oldThr; //那么新表的容量就等于旧的阈值
else { //如果当前表是空的,而且也没有阈值。代表是初始化时没有任何容量/阈值参数的情况
//此时新表的容量为默认的容量 16
newCap = DEFAULT_INITIAL_CAPACITY;
//新的阈值为默认容量16 * 默认加载因子0.75f = 12
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
}
if (newThr == 0) { //如果新的阈值是0,对应的是 当前表是空的,但是有阈值的情况
//根据新表容量和加载因子求出新的阈值
float ft = (float)newCap * loadFactor;
//进行越界修复
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
(int)ft : Integer.MAX_VALUE);
}
//更新阈值
threshold = newThr;
//根据新的容量 构建新的哈希桶
@SuppressWarnings({"rawtypes","unchecked"})
Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
//更新哈希桶引用
table = newTab;
//如果以前的哈希桶中有元素, 将当前哈希桶中的所有节点转移到新的哈希桶中
if (oldTab != null) {
for (int j = 0; j < oldCap; ++j) { //遍历旧哈希桶
//取出当前的节点 e
Node<K,V> e;
if ((e = oldTab[j]) != null) { //如果当前桶中有元素,则将链表赋值给e
oldTab[j] = null; //将原哈希桶置空以便GC
if (e.next == null) //如果当前链表中就一个元素,(没有发生哈希碰撞)
//直接将这个元素放置在新的哈希桶中, 此处取下标用的是哈希值与桶长度-1, 因为哈希桶的长度是2的n次方, 这样做相当于取模运算
newTab[e.hash & (newCap - 1)] = e;
else if (e instanceof TreeNode) //如果发生过哈希碰撞 ,而且是节点数超过8个,转化成了红黑树
((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
else { //如果发生过哈希碰撞,节点数小于8个。则要根据链表上每个节点的哈希值,依次放入新哈希桶对应下标位置。
//因为扩容是容量翻倍,所以原链表上的每个节点,现在可能存放在原来的下标,即low位, 或者扩容后的下标,即high位。high位=low位+原哈希桶容量
//低位链表的头结点、尾节点
Node<K,V> loHead = null, loTail = null;
//高位链表的头节点、尾节点
Node<K,V> hiHead = null, hiTail = null;
//临时节点 存放e的下一个节点
Node<K,V> next;
do {
next = e.next;
if ((e.hash & oldCap) == 0) { //利用哈希值与旧的容量,可以得到哈希值取模后,是大于等于oldCap还是小于oldCap,等于0代表小于oldCap,应该存放在低位,否则存放在高位
//给头尾节点指针赋值
if (loTail == null)
loHead = e;
else
loTail.next = e;
loTail = e;
}
else { //高位也是相同的逻辑
if (hiTail == null)
hiHead = e;
else
hiTail.next = e;
hiTail = e;
}
} while ((e = next) != null); //循环直到链表结束
//将低位链表存放在原index处,
if (loTail != null) {
loTail.next = null;
newTab[j] = loHead;
}
//将高位链表存放在新index处
if (hiTail != null) {
hiTail.next = null;
newTab[j + oldCap] = hiHead;
}
}
}
}
}
return newTab;
}
putVal方法
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
//tab存放 当前的哈希桶, p用作临时链表节点
Node<K,V>[] tab; Node<K,V> p; int n, i;
//如果当前哈希表是空的,代表是初始化
if ((tab = table) == null || (n = tab.length) == 0)
//那么直接去扩容哈希表,并且将扩容后的哈希桶长度赋值给n
n = (tab = resize()).length;
//如果当前index的节点是空的,表示没有发生哈希碰撞。 直接构建一个新节点Node,挂载在index处即可。
//这里再啰嗦一下,index 是利用 哈希值 & 哈希桶的长度-1,替代模运算
if ((p = tab[i = (n - 1) & hash]) == null)
tab[i] = newNode(hash, key, value, null);
else {//否则 发生了哈希冲突。
//e
Node<K,V> e; K k;
//如果哈希值相等,key也相等,则是覆盖value操作
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
e = p;//将当前节点引用赋值给e
else if (p instanceof TreeNode)//红黑树暂且不谈
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
else {//不是覆盖操作,则插入一个普通链表节点
//遍历链表
for (int binCount = 0; ; ++binCount) {
if ((e = p.next) == null) {//遍历到尾部,追加新节点到尾部
p.next = newNode(hash, key, value, null);
//如果追加节点后,链表数量》=8,则转化为红黑树
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
treeifyBin(tab, hash);
break;
}
//如果找到了要覆盖的节点
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e;
}
}
//如果e不是null,说明有需要覆盖的节点,
if (e != null) { // existing mapping for key
//则覆盖节点值,并返回原oldValue
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
//这是一个空实现的函数,用作LinkedHashMap重写使用。
afterNodeAccess(e);
return oldValue;
}
}
//如果执行到了这里,说明插入了一个新的节点,所以会修改modCount,以及返回null。
//修改modCount
++modCount;
//更新size,并判断是否需要扩容。
if (++size > threshold)
resize();
//这是一个空实现的函数,用作LinkedHashMap重写使用。
afterNodeInsertion(evict);
return null;
}
newNode方法
// Create a regular (non-tree) node
Node<K,V> newNode(int hash, K key, V value, Node<K,V> next) {
return new Node<>(hash, key, value, next);
}
其他方法
//根据期望容量cap,返回2的n次方形式的 哈希桶的实际容量 length。 返回值一般会>=cap
static final int tableSizeFor(int cap) {
//经过下面的 或 和位移 运算, n最终各位都是1。
int n = cap - 1;
n |= n >>> 1;
n |= n >>> 2;
n |= n >>> 4;
n |= n >>> 8;
n |= n >>> 16;
//判断n是否越界,返回 2的n次方作为 table(哈希桶)的阈值
return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}
//将另一个Map的所有元素加入表中,参数evict初始化时为false,其他情况为true
final void putMapEntries(Map<? extends K, ? extends V> m, boolean evict) {
//拿到m的元素数量
int s = m.size();
//如果数量大于0
if (s > 0) {
//如果当前表是空的
if (table == null) { // pre-size
//根据m的元素数量和当前表的加载因子,计算出阈值
float ft = ((float)s / loadFactor) + 1.0F;
//修正阈值的边界 不能超过MAXIMUM_CAPACITY
int t = ((ft < (float)MAXIMUM_CAPACITY) ?
(int)ft : MAXIMUM_CAPACITY);
//如果新的阈值大于当前阈值
if (t > threshold)
//返回一个 》=新的阈值的 满足2的n次方的阈值
threshold = tableSizeFor(t);
}
//如果当前元素表不是空的,但是 m的元素数量大于阈值,说明一定要扩容。
else if (s > threshold)
resize();
//遍历 m 依次将元素加入当前表中。
for (Map.Entry<? extends K, ? extends V> e : m.entrySet()) {
K key = e.getKey();
V value = e.getValue();
putVal(hash(key), key, value, false, evict);
}
}
}
加载因子为什么是0.75
为什么不是0.5或1.0?
首先如果加载因子比较大, 那么扩容发生的频率就比较低, 与之对应浪费的空间也会比较小。不过发生hash冲突的几率也会变得比较大, 比如加载因子是1的时候, 如果HashMap的长度为128, 那么可能HashMap的实际存储元素数量在64至128之间的比较多, 而这个时间段发生的hash冲突就比较大, 造成数据中其中一条链表较长, 就会影响性能。
而当加载因子比较小的时候, 扩容的频率就会变高, 因此会占用更多的空间, 但元素的存储就比较稀疏, 发生哈希冲突的可能性就比较小, 因此操作性能会比较高, 比如设置成0.5, 相同128长度的HashMap, 当数量达到65的时候就会触发HashMap的扩容, 扩容后长度为256, 256里面只存储了65个元素的话就会有很多的空间被浪费。
所以综合了以上情况就取了0.5到1.0之间的平均数0.75作为加载因子
另外一提, 0.75与泊松分布的关系, 当负载因子等于0.75, 带入泊松分布公式中, 计算出长度为8时, 概率 = 0.00000006, 这个0.00000006概率已经很小了, 所以链表长度为8时, 转换成红黑树。
使用红黑树的原因
红黑树是为了解决二叉查找树的缺陷, 因为二叉查找树在某些情况下回退化成一个线性结构。
红黑树是一种二叉查找树, 同时也是一种弱平衡二叉树, 相对于要求严格的AVL树来说, 它的旋转次数少, 所以对于搜索, 插入(最多两次旋转), 删除(最多三次旋转)操作较多的情况下, 通常使用红黑树。
红黑树在查找, 插入, 删除的性能都是O(logn), 且性能稳定。
小结
- 运算尽量都用位运算替代
- 取下标是用哈希值和桶长度-1做 与运算 (n-1) & hash , 因为桶的长度是2的n次方, 所以相当于一个取模, 更高效
- 扩容时, 如果发生哈希碰撞, 节点数小于8个。则要根据链表上每个节点的hash值, 依次放入
链表节点
每个节点(Node)的哈希值, 是将key的hashCode和value的hashCode进行异或运算得到的。
static class Node<K,V> implements Map.Entry<K,V> {
final int hash; //哈希值
final K key;
V value;
Node<K,V> next; //链表后置节点
Node(int hash, K key, V value, Node<K,V> next) {
this.hash = hash;
this.key = key;
this.value = value;
this.next = next;
}
public final K getKey() { return key; }
public final V getValue() { return value; }
public final String toString() { return key + "=" + value; }
//每一个节点的hash值,是将key的hashCode 和 value的hashCode异或得到的。
public final int hashCode() {
return Objects.hashCode(key) ^ Objects.hashCode(value);
}
//设置新的value 同时返回旧value
public final V setValue(V newValue) {
V oldValue = value;
value = newValue;
return oldValue;
}
public final boolean equals(Object o) {
if (o == this)
return true;
if (o instanceof Map.Entry) {
Map.Entry<?,?> e = (Map.Entry<?,?>)o;
if (Objects.equals(key, e.getKey()) &&
Objects.equals(value, e.getValue()))
return true;
}
return false;
}
}
哈希碰撞和扰动函数
扩容机制
先讲一下插入的原理, 由于原始结构是数据+链表, HashMap通过Key的HashCode, 经过扰动函数处理过后得到Hash值, 然后通过(数组长度 - 1) & Hash判断当前元素存放的位置, 如果当前位置存在元素, 就判断该元素与要存入的元素的hash值以及key是否相同, 如果相同的直接覆盖, 不同的通过拉链法解决冲突, 所谓拉链法就是将链表和数组相结合, 即创建一个链表数组, 数组中每个元素就是一个链表,若遇到Hash冲突, 就将冲突的值加入到链表即可。在JDK1.8之后, 如果数组的长度超过64位, 链表的长度超过8, 就会转换成红黑树以减少搜索时间(TreeMap, TreeSet的底层都用到了红黑树)。
再说一下扩容的过程
- 判断当前容量大小是否为空, 如果为空(为设置初始值), 则把容量扩容为16
- 获取key的HashCode, 对HashCode进行扰动处理, 计算出元素的下标
- 根据下标判断有无hash碰撞, 如果没有, 直接放入哈希桶中
- 如果发生碰撞, 比较两个key是否相同, 相同则覆盖, 不同则以链表的方式插入到尾部(尾插法)
- 如果插入过后链表的长度超过了阈值(TREEIFY_THRESHOLD=8), 则把链表转换为红黑树
- 插入成功后, 如果元素个数达到了阈值(threshold = 哈希桶.length * loadFactor), 则执行扩容操作判断(不超过Integer的最大值)
- 扩容成功后, 对元素下标进行重新计算
因为底层哈希桶的数据结构是数据, 所以也会涉及到扩容的问题。
在putVal方法的29行调用了一个方法treeifyBin
/**
判断链表长度到达8调用treeifyBin方法转换红黑树
TREEIFY_THRESHOLD的值为8 ,TREEIFY_THRESHOLD-1=7,所以binCount >=7时调用treeifyBin方法
*/
for (int binCount = 0; ; ++binCount) {
if ((e = p.next) == null) {
p.next = newNode(hash, key, value, null);
//如果追加节点后,链表数量>=8,则转化为红黑树
if (binCount >= TREEIFY_THRESHOLD - 1)
treeifyBin(tab, hash);
break;
}
}
注意转红黑树链表长度是要超过8, 而不是达到8, binCount的自增是++binCount, 当binCount=0,put的第2个元素,binCount 1对应put的第3个元素,1对以此类推,当binCount=7时此时put的是第9个元素,而上面的已经说了binCount >=7时调用treeifyBin方法,所以链表长度是要超过8。
再来看treeifyBin的代码实现
final void treeifyBin(Node<K,V>[] tab, int hash) {
int n, index; Node<K,V> e;
//判断数组长度是否小于64,小于则进行扩容,否则转红黑树
if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
resize();
else if ((e = tab[index = (n - 1) & hash]) != null) {
TreeNode<K,V> hd = null, tl = null;
do {
TreeNode<K,V> p = replacementTreeNode(e, null);
if (tl == null)
hd = p;
else {
p.prev = tl;
tl.next = p;
}
tl = p;
} while ((e = e.next) != null);
if ((tab[index] = hd) != null)
hd.treeify(tab);
}
}
API方法
JDK1.7和JDK1.8 HashMap的变化
不同点 | JDK1.7 | JDK1.8 |
---|---|---|
存储结构 | 数组+链表 | 数组+链表+红黑树 |
初始化方式 | inflateTable()方法 | 集成到扩容方法resize()方法 |
Hash值计算方式 | 扰动处理=9次扰动=4次位运算+5次异或运算 | 扰动处理=2次扰动=1次位运算+1次异或运算 |
存放数据的规则 | 无冲突时, 存放数据; 冲突时, 存放链表 | 无冲突时, 存放数据; 冲突 & 数组长度 < 8, 存放到单链表; 冲突&数组长度>64 & 链表长度 >8, 树化并存放在红黑树 |
插入数据方式 | 头插法 | 尾插法(直接插入链表尾部or红黑树) |
扩容后存储位置的计算 | HashCode ->> 扰动函数 ->> (Hash & length-1) | 按照扩容后的规律计算(扩容后的位置 = 原位置 or 原位置 + 旧容量) |
HashTable和ConcurrentHashMap
HashMap与HashTable的区别
- 线程安全, HashMap是非线程安全的, HashTable是线程安全的, HashTable的方法都用synchronized修饰的
- 效率, 由于线程安全的问题, HashMap的性能优于HashTable
- HashMap允许key和value为null, HashTable不允许key和value为null
- 数据结构, JDK1.8以后HashMap能转换成红黑树, HashTable没有这种功能
ConcurrentHashMap的实现
JDK1.7 ConcurrentHashMap
- 首先将数据分为一段一段的存储, 然后给每一段数据配一把段锁, 当一个线程占用锁访问其中一个段数据时, 其他段的数据也能被其他线程访问到
- 在1.7中, ConcurrentHashMap采用了Segment + HashEntry的方式实现:
一个ConcurrentHashMap里包含一个Segment数组, Segment的结构与HashMap类似, 是一种数组+链表结构, 一个Segment包含一个HashEntry数组。每个HashEntry是一个链表结构的元素, 每个Segment守护着一个HashEntry数组里的元素, 当对HashEntry数组进行修改时, 必须获得对应的Segment的锁。
Segment使用了ReentrantLock 可重入锁
JDK1.8 ConcurrentHashMap
放弃了Segment臃肿的设计, 取而代之的是采用Node + CAS + Synchronized来保证线程安全, synchronized只锁定当前链表的首节点或红黑树的首节点, 这样只要hash不冲突, 就不会产生并发。
Node是ConcurrentHashMap中最核心最重要的内部类, Node存储K-V, 所有插入ConcurrentHashMap中的数据都会包装在Node中。在HashMap中其核心数据结构是链表, 而在ConcurrentHashMap中如果链表的数据过长会转换为红黑树来处理, 通过将链表的节点包装成TreeNode, 放在TreeBin中, 然后经由TreeBin完成红黑树的转换。TreeBin不负责键值对的包装, 用于在链表转换为红黑树时, 包装TreeNode节点, 用来构建红黑树。
总结
HashMap的源码中, 在进行运算时都优先使用各种位运算来替代常规运算, 以此来提升效率
-
与运算替代模运算
hash & (table.length-1) 替代 hash % (table.length)
-
if ((e.hash & oldCap) == 0) 判断扩容后, 节点e处于低区还是高区
-
扩容后立即将老数组的引用置为null, 以便GC回收
-
扩容操作时,会new一个新的Node数组作为哈希桶,然后将原哈希表中的所有数据(Node节点)移动到新的哈希桶中,相当于对原哈希表中所有的数据重新做了一个put操作。所以性能消耗很大,可想而知,在哈希表的容量越大时,性能消耗越明显。