目录
一、简介
在ConcurrentHashMap中,比较复杂部分就是其扩容机制,因为涉及到多个线程分工合作完成数据迁移和key的rehash操作。
二、扩容思路
ConcurrentHashMap扩容一般分为两个步骤:
- 【a】Node<K,V>[] table数组的扩容,一般是扩大到原来数组大小的两倍;
- 【b】key的rehash以及数据的迁移:因为计算key在桶中的索引index跟数组的大小有关,现在数组大小扩大了,那么相应的数组索引也可能发生变化,这就是rehash。所谓数据迁移,就是将原来table数组的各个槽中的节点重新分配到新创建的nextTable中。
注意,ConcurrentHashMap在rehash的时候,并不会重新计算每个key的hash值,而是利用了一种很巧妙的方式。我们都知道ConcurrentHashMap内部的table数组的大小必须为2的幂次,原因是让key均匀分布,减少hash冲突。
还有就是,当table数组的大小为2的幂次时,我们通过下面的方式计算出来的索引index:
key.hash & table.length-1
这样在table扩容到两倍大小时,新的索引要么在原来的位置i,要么是i+n。
举个例子,假设扩容前table数组大小为16,有两个key:
length-1=15: 0000 0000 0000 0000 0000 0000 0000 1111
key1("A")的hash:0000 0000 0000 0000 0000 0000 0100 0001
key2("B")的hash:0000 0000 0000 0000 0000 0000 0100 0010
=======================================================================
&运算后key1: 0000 0000 0000 0000 0000 0000 0000 0001 = 索引为1
&运算后key2: 0000 0000 0000 0000 0000 0000 0000 0010 = 索引为2
扩容后,table变为长度32,同样是上面两个key:
length-1=31: 0000 0000 0000 0000 0000 0000 0001 1111
key1("A")的hash:0000 0000 0000 0000 0000 0000 0100 0001
key2("B")的hash:0000 0000 0000 0000 0000 0000 0100 0010
=======================================================================
&运算后key1: 0000 0000 0000 0000 0000 0000 0000 0001 = 索引还为1
&运算后key2: 0000 0000 0000 0000 0000 0000 0000 0010 = 索引还为2
由此验证了上面的:table扩容到两倍大小时,新的索引要么在原来的位置i,要么是i+n。
这种处理方式对于扩容时多个线程同时进行数据迁移操作非常有利,因为旧table的各个桶中的结点迁移不会互相影响,可以采用“分工合作”的方式,将整个table数组划分为很多区间部分,每一部分包含一定区间的桶,每个数据迁移线程处理各自区间中的结点。
三、ConcurrentHashMap扩容源码阅读
接下来,我们看看ConcurrentHashMap是什么情况下会发生扩容。通过上一节文章,我们知道了:
当链表中的节点数量超过一定的阈值(通常为8)时,会发生链表转换为红黑树结构。
if (binCount != 0) {
if (binCount >= TREEIFY_THRESHOLD)
treeifyBin(tab, i);
if (oldVal != null)
return oldVal;
break;
}
其中转换方法就是:treeifyBin(tab, i):
/**
* 链表转换为红黑树的主要方法.
*/
private final void treeifyBin(Node<K,V>[] tab, int index) {
Node<K,V> b; int n, sc;
if (tab != null) {
//这里可以看到,链表转换为红黑树结构不单单只是链表节点数量超出阈值8
//第二重判断:table的容量是否小于64,如果小于64, 直接进行table扩容,不会发生红黑树转换
//因此链表->红黑树 ,不一定链表节点数量超过阈值就发生。
if ((n = tab.length) < MIN_TREEIFY_CAPACITY)
//table数组扩容重要方法
tryPresize(n << 1);
else if ((b = tabAt(tab, index)) != null && b.hash >= 0) { //table的容量大于等于64时,链表将转换为红黑树
//锁住table[index]链表头节点
synchronized (b) {
//再次判断,防止table[i]被其他线程修改
if (tabAt(tab, index) == b) {
TreeNode<K,V> hd = null, tl = null;
//循环遍历链表,将每个Node节点转换为TreeNode树节点
for (Node<K,V> e = b; e != null; e = e.next) {
//构建TreeNode树节点
TreeNode<K,V> p =
new TreeNode<K,V>(e.hash, e.key, e.val,
null, null);
if ((p.prev = tl) == null)
//p作为头节点
hd = p;
else
//链接上一次遍历的节点
tl.next = p;
tl = p;
}
//将树节点链接到TreeBin节点
setTabAt(tab, index, new TreeBin<K,V>(hd));
}
}
}
}
}
从上面的代码可以看到,如果table长度小于64时,不会发生链表转换为红黑树,而是会调用tryPresize方法把数组长度扩大到原来的两倍。
下面我们看看tryPresize():
/**
* 尝试调整table的大小以适应给定的元素数量
* 扩容重要方法
*/
private final void tryPresize(int size) {
//如果尝试扩容的容量超过最大容量,那么无法扩容,直接取MAXIMUM_CAPACITY
//如果没有超过最大容量,尝试调整为: 大于当前容量的2次幂大小
int c = (size >= (MAXIMUM_CAPACITY >>> 1)) ? MAXIMUM_CAPACITY :
tableSizeFor(size + (size >>> 1) + 1);
int sc;
//自旋一直判断
while ((sc = sizeCtl) >= 0) {
Node<K,V>[] tab = table; int n;
//table为空的话,说明尚未初始化,所以先进行初始化
if (tab == null || (n = tab.length) == 0) {
n = (sc > c) ? sc : c;
if (U.compareAndSwapInt(this, SIZECTL, sc, -1)) {
try {
if (table == tab) {
@SuppressWarnings("unchecked")
//创建一个长度为n的Node<K,V>[]赋值给table
Node<K,V>[] nt = (Node<K,V>[])new Node<?,?>[n];
table = nt;
sc = n - (n >>> 2);
}
} finally {
sizeCtl = sc;
}
}
}
//如果已经被扩容过或者table数组已经超过最大容量,则直接退出循环
else if (c <= sc || n >= MAXIMUM_CAPACITY)
break;
else if (tab == table) { //进行扩容操作
//返回一个随机数,标志此次
int rs = resizeStamp(n);
if (sc < 0) { //表明此时有别的线程正在进行扩容
Node<K,V>[] nt;
// 如果当前线程无法协助进行数据转移, 则退出
if ((sc >>> RESIZE_STAMP_SHIFT) != rs || sc == rs + 1 ||
sc == rs + MAX_RESIZERS || (nt = nextTable) == null ||
transferIndex <= 0)
break;
if (U.compareAndSwapInt(this, SIZECTL, sc, sc + 1))
//协助数据转移
transfer(tab, nt);
}
// sc置为负数, 当前线程成为第一个执行数据转移的线程
else if (U.compareAndSwapInt(this, SIZECTL, sc,
(rs << RESIZE_STAMP_SHIFT) + 2))
transfer(tab, null);
}
}
}
可以看到,协助数据迁移和自身成为第一个进行数据迁移的线程,都是调用的transfer方法来完成:
/**
* 将每个bin中的节点移动或复制到新表中.
* 数据迁移的重要方法
*/
private final void transfer(Node<K,V>[] tab, Node<K,V>[] nextTab) {
int n = tab.length, stride;
// stride表示数据迁移时,每个线程要负责旧table中的多少个桶的数据迁移
// 通过cpu的数量
// 假设: n = table.length = 100,cpu的数量=4, 计算得出的stride = 3 < MIN_TRANSFER_STRIDE=16
if ((stride = (NCPU > 1) ? (n >>> 3) / NCPU : n) < MIN_TRANSFER_STRIDE)
//说明最小区间大小就是16
stride = MIN_TRANSFER_STRIDE; // 细分范围
if (nextTab == null) { // 第一次进行扩容
try {
@SuppressWarnings("unchecked")
Node<K,V>[] nt = (Node<K,V>[])new Node<?,?>[n << 1];
//此处就是通过左移一位,创建一个大小为原先数组大小两倍的数组
//并且赋值给新数组nextTab
nextTab = nt;
} catch (Throwable ex) { //处理内存溢出(OOME)的情况
sizeCtl = Integer.MAX_VALUE;
return;
}
//赋值给扩容后新数组nextTab
nextTable = nextTab;
// [transferIndex-stride, transferIndex-1]表示当前线程要进行数据迁移的桶区间
// [100-16, 100-1] -> [84,99]
transferIndex = n;
}
int nextn = nextTab.length;
// ForwardingNode结点,当旧table的某个桶中的所有节点都迁移完后,用该节点占据这个桶
ForwardingNode<K,V> fwd = new ForwardingNode<K,V>(nextTab);
// 标识一个桶的迁移工作是否完成,advance为true 表示可进行下一个位置的迁移.
boolean advance = true;
// 最后一个线程完成数据迁移后,会将该值置为true
boolean finishing = false;
// i指当前处理的槽位序号,bound指需要处理的槽位边界
for (int i = 0, bound = 0;;) {
Node<K,V> f; int fh;
// 计算本次处理的桶区间
// i == transferIndex-1,bound == transferIndex-stride
while (advance) {
int nextIndex, nextBound;
if (--i >= bound || finishing)
advance = false;
else if ((nextIndex = transferIndex) <= 0) {
i = -1;
advance = false;
}
//cas无锁算法设置 transferIndex = transferIndex - stride
else if (U.compareAndSwapInt
(this, TRANSFERINDEX, nextIndex,
nextBound = (nextIndex > stride ?
nextIndex - stride : 0))) {
bound = nextBound;
i = nextIndex - 1;
advance = false;
}
}
if (i < 0 || i >= n || i + n >= nextn) {
int sc;
//所有桶都完成了数据迁移
if (finishing) {
//清空临时对象nextTable
nextTable = null;
table = nextTab;
//扩容阈值设置为原来容量的1.5倍 依然相当于现在容量的0.75倍
sizeCtl = (n << 1) - (n >>> 1);
return;
}
// 利用CAS方法更新这个扩容阈值,扩容线程数减1
if (U.compareAndSwapInt(this, SIZECTL, sc = sizeCtl, sc - 1)) {
// 判断当前线程是否是本次扩容中的最后一个线程,如果不是,则直接退出
if ((sc - 2) != resizeStamp(n) << RESIZE_STAMP_SHIFT)
return;
finishing = advance = true;
/**
* 最后一个线程要重新检查一次旧table中的所有桶,确认是否都被正确迁移到新table
*/
i = n; // recheck before commit
}
}
else if ((f = tabAt(tab, i)) == null)
//对应旧桶中的数据为null,不需要进行迁移,存放ForwardingNode用于占位
advance = casTabAt(tab, i, null, fwd);
else if ((fh = f.hash) == MOVED) //旧桶已经迁移完成
advance = true; // already processed
else { //旧桶未迁移完成
synchronized (f) {
if (tabAt(tab, i) == f) {
Node<K,V> ln, hn;
if (fh >= 0) { //桶的hash>0,说明是链表迁移
int runBit = fh & n;
Node<K,V> lastRun = f;
//lastRun表示最后一个使fh & n发生变化的节点
for (Node<K,V> p = f.next; p != null; p = p.next) {
int b = p.hash & n;
if (b != runBit) {
runBit = b;
lastRun = p;
}
}
if (runBit == 0) {
ln = lastRun;
hn = null;
}
else {
hn = lastRun;
ln = null;
}
//可见循环到lastRun为止, 以lastRun所指向的节点为分界
for (Node<K,V> p = f; p != lastRun; p = p.next) {
//将链表拆成2个子链表ln、hn
int ph = p.hash; K pk = p.key; V pv = p.val;
if ((ph & n) == 0)
ln = new Node<K,V>(ph, pk, pv, ln);
else
hn = new Node<K,V>(ph, pk, pv, hn);
}
//p.hash & n等于0的节点构成一个链表ln,这些节点在新数组中的位置不变
setTabAt(nextTab, i, ln);
//p.hash & n等于1的节点构成一个链表hn,这些节点在新数组中的位置为i+n
setTabAt(nextTab, i + n, hn);
//放置ForwardingNode用于占位
setTabAt(tab, i, fwd);
advance = true;
}
else if (f instanceof TreeBin) { //红黑树迁移
TreeBin<K,V> t = (TreeBin<K,V>)f;
TreeNode<K,V> lo = null, loTail = null;
TreeNode<K,V> hi = null, hiTail = null;
int lc = 0, hc = 0;
for (Node<K,V> e = t.first; e != null; e = e.next) {
int h = e.hash;
TreeNode<K,V> p = new TreeNode<K,V>
(h, e.key, e.val, null, null);
if ((h & n) == 0) {
if ((p.prev = loTail) == null)
lo = p;
else
loTail.next = p;
loTail = p;
++lc;
}
else {
if ((p.prev = hiTail) == null)
hi = p;
else
hiTail.next = p;
hiTail = p;
++hc;
}
}
// 判断是否需要进行 红黑树 <-> 链表 的转换
ln = (lc <= UNTREEIFY_THRESHOLD) ? untreeify(lo) :
(hc != 0) ? new TreeBin<K,V>(lo) : t;
hn = (hc <= UNTREEIFY_THRESHOLD) ? untreeify(hi) :
(lc != 0) ? new TreeBin<K,V>(hi) : t;
setTabAt(nextTab, i, ln);
setTabAt(nextTab, i + n, hn);
setTabAt(tab, i, fwd);
advance = true;
}
}
}
}
}
}
扩容的大体流程:
- 新数组的长度是原来的2倍;
- 根据不同位置的元素的结构有不同的方式;
- 不管原来是链表结构还是树型结构,扩容以后都变成两部分,一部分是hash&n为0的,另一部分是hash&n不为0的,其中n为原数组的长度;
- 对于那些hash&n==0的结点,它们在新数组中的位置保持不变,也就是说它们原先在旧数组中是什么位置,现在在新数组中还是什么位置;
- 对于那些hash&n != 0的节点,它们在新数组中的位置相比于之前在旧数组中的位置是向后移动了n;
- 每个位置在迁移的时候都加锁了;
- 扩容后,原来在旧数组中在相同位置的结点在新数组中未必还在相同的位置;
- 扩容后,链表没有倒置;
- 由于迁移到新数组中时,会将原先一棵树分成两部分(跟链表一样),所以分出来的树中如果结点数小于或等于6,则转成链表;
三、总结
通过两篇ConcurrentHashMap相关的文章,我们对ConcurrentHashMap有了大概理解,ConcurrentHashMap的源码相对比较复杂,其中涉及红黑树那一块也是很复杂,笔者暂且先略过这一块内容,后面再回来琢磨琢磨。以上仅是笔者的学习上的一些总结,如有不对之处,还请大家帮忙指正。
参考资料:
https://www.cnblogs.com/cjsblog/p/10017911.html
https://blog.csdn.net/programmer_at/article/details/79715177