1、1.7版本的底层实现
ConcurrentHashMap在1.7版本中数据结构是segement+数组+链表,1.7版本默认有16个segement,并且不允许扩容,扩容只能在segement内部对其table做扩容。
1.1 put方法
put方法中操作步骤:
(1)由于相对于HashMap外面包了一层segement,所以需要通过key的hash,计算处在哪个segement中,确认之后,调用segement的put操作。
(2)在segement中对table的逻辑实际上和HashMap的put操作一样。而在这之前需要先获取到以segement为单位的锁,这里使用的ReentrantLock加锁,为了减少上下文切换,先尝试获取锁,循环次数为单核是1次,多核是64次,如果尝试失败,则直接调用lock阻塞。
(3)获取锁之后,对key计算相应的hash值,然后通过hash & table.length-1计算可以获得到在hash表中中相应的桶位置,循环遍历其链表,比较其key值,如果相等,则更新其value的值
(4)如果不相等,则判断是否需要扩容,其中扩容的判断条件是,其size>table.length*0.75.其中0.75是负载因子,如果超过,则扩容。没有超过,则头插入的方式,插入到链表表头。
public V put(K key, V value) {
Segment<K,V> s;
if (value == null)
throw new NullPointerException();
// 1. 计算 key 的 hash 值
int hash = hash(key);
// 2. 根据 hash 值找到 Segment 数组中的位置 j
// hash 是 32 位,无符号右移 segmentShift(28) 位,剩下高 4 位,
// 然后和 segmentMask(15) 做一次与操作,也就是说 j 是 hash 值的高 4 位,也就是槽的数组下标
int j = (hash >>> segmentShift) & segmentMask;
// 刚刚说了,初始化的时候初始化了 segment[0],但是其他位置还是 null,
// ensureSegment(j) 对 segment[j] 进行初始化
if ((s = (Segment<K,V>)UNSAFE.getObject // nonvolatile; recheck
(segments, (j << SSHIFT) + SBASE)) == null) // in ensureSegment
s = ensureSegment(j);
// 3. 插入新值到 槽 s 中
return s.put(key, hash, value, false);
}
final V put(K key, int hash, V value, boolean onlyIfAbsent) {
// 在往该 segment 写入前,需要先获取该 segment 的独占锁
// 先看主流程,后面还会具体介绍这部分内容
HashEntry<K,V> node = tryLock() ? null :
scanAndLockForPut(key, hash, value);
V oldValue;
try {
// 这个是 segment 内部的数组
HashEntry<K,V>[] tab = table;
// 再利用 hash 值,求应该放置的数组下标
int index = (tab.length - 1) & hash;
// first 是数组该位置处的链表的表头
HashEntry<K,V> first = entryAt(tab, index);
// 下面这串 for 循环虽然很长,不过也很好理解,想想该位置没有任何元素和已经存在一个链表这两种情况
for (HashEntry<K,V> e = first;;) {
if (e != null) {
K k;
if ((k = e.key) == key ||
(e.hash == hash && key.equals(k))) {
oldValue = e.value;
if (!onlyIfAbsent) {
// 覆盖旧值
e.value = value;
++modCount;
}
break;
}
// 继续顺着链表走
e = e.next;
}
else {
// node 到底是不是 null,这个要看获取锁的过程,不过和这里都没有关系。
// 如果不为 null,那就直接将它设置为链表表头;如果是null,初始化并设置为链表表头。
if (node != null)
node.setNext(first);
else
node = new HashEntry<K,V>(hash, key, value, first);
int c = count + 1;
// 如果超过了该 segment 的阈值,这个 segment 需要扩容
if (c > threshold && tab.length < MAXIMUM_CAPACITY)
rehash(node); // 扩容后面也会具体分析
else
// 没有达到阈值,将 node 放到数组 tab 的 index 位置,
// 其实就是将新的节点设置成原链表的表头
setEntryAt(tab, index, node);
++modCount;
count = c;
oldValue = null;
break;
}
}
} finally {
// 解锁
unlock();
}
return oldValue;
}
private void rehash(HashEntry<K,V> node) {
HashEntry<K,V>[] oldTable = table;
int oldCapacity = oldTable.length;
// 2 倍
int newCapacity = oldCapacity << 1;
threshold = (int)(newCapacity * loadFactor);
// 创建新数组
HashEntry<K,V>[] newTable =
(HashEntry<K,V>[]) new HashEntry[newCapacity];
// 新的掩码,如从 16 扩容到 32,那么 sizeMask 为 31,对应二进制 ‘000...00011111’
int sizeMask = newCapacity - 1;
// 遍历原数组,老套路,将原数组位置 i 处的链表拆分到 新数组位置 i 和 i+oldCap 两个位置
for (int i = 0; i < oldCapacity ; i++) {
// e 是链表的第一个元素
HashEntry<K,V> e = oldTable[i];
if (e != null) {
HashEntry<K,V> next = e.next;
// 计算应该放置在新数组中的位置,
// 假设原数组长度为 16,e 在 oldTable[3] 处,那么 idx 只可能是 3 或者是 3 + 16 = 19
int idx = e.hash & sizeMask;
if (next == null) // 该位置处只有一个元素,那比较好办
newTable[idx] = e;
else { // Reuse consecutive sequence at same slot
// e 是链表表头
HashEntry<K,V> lastRun = e;
// idx 是当前链表的头节点 e 的新位置
int lastIdx = idx;
// 下面这个 for 循环会找到一个 lastRun 节点,这个节点之后的所有元素是将要放到一起的
for (HashEntry<K,V> last = next;
last != null;
last = last.next) {
int k = last.hash & sizeMask;
if (k != lastIdx) {
lastIdx = k;
lastRun = last;
}
}
// 将 lastRun 及其之后的所有节点组成的这个链表放到 lastIdx 这个位置
newTable[lastIdx] = lastRun;
// 下面的操作是处理 lastRun 之前的节点,
// 这些节点可能分配在另一个链表中,也可能分配到上面的那个链表中
for (HashEntry<K,V> p = e; p != lastRun; p = p.next) {
V v = p.value;
int h = p.hash;
int k = h & sizeMask;
HashEntry<K,V> n = newTable[k];
newTable[k] = new HashEntry<K,V>(h, p.key, v, n);
}
}
}
}
// 将新来的 node 放到新数组中刚刚的 两个链表之一 的 头部
int nodeIndex = node.hash & sizeMask; // add the new node
node.setNext(newTable[nodeIndex]);
newTable[nodeIndex] = node;
table = newTable;
}
其中扩容的操作是:
(1)创建一个新的hash表,长度为原表的两倍,然后将oldtable的数据拷贝到新表中。那怎么拷贝呢?
(2)因为拷贝到新表,hash值需要重新计算,key的hash和新表的length-1进行计算,然后插入到新表中,如果hash桶存在链表,则使用头插入的方式,插入到新表中。这会导致数据在新表中是倒置的。
(3)将新表赋值给table,
相对于1.7的HashMap扩容有一个优化的点,不是每个Node都是重新计算hash然后头插入到表头中,而是计算链表中第一个后续所有的节点index不变的节点,找到之后,只需要处理此节点之前的Node头插入即可。此时最坏的情况是第一个后继节点是最后一个。最好的情况是第一个节点就是后继节点即后面所有的index位置都不变。
由于并发已经加锁,所以此处不存在死循环的情况。
1.2 get方法
get方法还是很简单,先找到相应的segement,然后调用segment中的get方法,遍历内部的table。遍历table过程就和HashMap的逻辑是一样的。通过key的hash获取到hash表中的位置,然后遍历其列表,通过比较key,如果相等则返回其entry对象。
public V get(Object key) {
Segment<K,V> s; // manually integrate access methods to reduce overhead
HashEntry<K,V>[] tab;
// 1. hash 值
int h = hash(key);
long u = (((h >>> segmentShift) & segmentMask) << SSHIFT) + SBASE;
// 2. 根据 hash 找到对应的 segment
if ((s = (Segment<K,V>)UNSAFE.getObjectVolatile(segments, u)) != null &&
(tab = s.table) != null) {
// 3. 找到segment 内部数组相应位置的链表,遍历
for (HashEntry<K,V> e = (HashEntry<K,V>) UNSAFE.getObjectVolatile
(tab, ((long)(((tab.length - 1) & h)) << TSHIFT) + TBASE);
e != null; e = e.next) {
K k;
if ((k = e.key) == key || (e.hash == h && key.equals(k)))
return e.value;
}
}
return null;
}
2、1.8版本的底层实现
1.8版本中的结构和HashMap中的结构是一样的,是数组+链表+红黑树,使用CAS和Synchronized来处理并发
2.1 put方法
下面1-5步实际上逻辑和HashMap中是一样的,只是使用了CAS操作对节点进行了赋值,使用Synchronized对表头进行加锁。而不同的点,是加一条逻辑6
(1)计算相应key的hash,然后hash&table.length-1,获取在数组中桶的位置,如果为空则直接new Node插入即可。
(2)如果table[i] != null。则判断此key是否相等,如果相等,则更新老的值
(3)如果table[i]是树节点,将此节点插入到树中
(4)如果table[i]是链表,则遍历链表,如果链表找到,则更新老的值,如果没有找到则使用尾插入插入其节点,插入之后,当节点个数大于8个,则转换成红黑树。此处和HashMap有一点不同的是如果table的长度<64,则对数组进行扩容,而不是转换成红黑树
(5)插入之后,查看size是否大于阈值,如果符合则resize。
(6)判断头节点的hash是否是MOVE,意思是此表在进行扩容,需要此线程加入进来一起帮忙扩容。helpTransfer此处是帮助迁移。
final V putVal(K key, V value, boolean onlyIfAbsent) {
if (key == null || value == null) throw new NullPointerException();
int hash = spread(key.hashCode());
int binCount = 0;
for (Node<K,V>[] tab = table;;) {
Node<K,V> f; int n, i, fh;
if (tab == null || (n = tab.length) == 0)
tab = initTable();
else if ((f = tabAt(tab, i = (n - 1) & hash)) == null) {
if (casTabAt(tab, i, null,
new Node<K,V>(hash, key, value, null)))
break; // no lock when adding to empty bin
}
else if ((fh = f.hash) == MOVED)
tab = helpTransfer(tab, f);
else {
V oldVal = null;
synchronized (f) {
if (tabAt(tab, i) == f) {
if (fh >= 0) {
binCount = 1;
for (Node<K,V> e = f;; ++binCount) {
K ek;
if (e.hash == hash &&
((ek = e.key) == key ||
(ek != null && key.equals(ek)))) {
oldVal = e.val;
if (!onlyIfAbsent)
e.val = value;
break;
}
Node<K,V> pred = e;
if ((e = e.next) == null) {
pred.next = new Node<K,V>(hash, key,
value, null);
break;
}
}
}
else if (f instanceof TreeBin) {
Node<K,V> p;
binCount = 2;
if ((p = ((TreeBin<K,V>)f).putTreeVal(hash, key,
value)) != null) {
oldVal = p.val;
if (!onlyIfAbsent)
p.val = value;
}
}
}
}
if (binCount != 0) {
if (binCount >= TREEIFY_THRESHOLD)
treeifyBin(tab, i);
if (oldVal != null)
return oldVal;
break;
}
}
}
addCount(1L, binCount);
return null;
}
2.2 扩容方法
ConcurrentHashMap扩容方式是多线程扩容,将就表拆分成多个迁移,分配给多个线程迁移,这些线程从哪里来,就是做put,做resize方法的主线程。对于链表的链表和数的迁移,比较HashMap是有一些改动的,但是总体的逻辑是不变的,但是总的将旧表迁移到新表的逻辑还是不变的。既然拆分多个线程迁移,那每个线程迁移多少个节点,此逻辑依赖于transferIndex,它是指向table表的最后位置,然后迁移范围为stride,第一个线程迁移stride后,transferIndex则指向transferIndex-stride位置,第二个线程在从此位置开始迁移stride,直到迁移完成。
(1)先对stride进行赋值,然后对nextTable新表进行初始化,第一个线程才需要,后续线程不需要初始化新表
(2)新建一个ForwardingNode,内部存放的nextTable,并且hash为MOVE。对象名为fwd
(2)遍历oldtable中transferIndex到transferIndex-stride位置的数据,然后将数据迁移到新表中。遍历桶中,如果此节点为空,则直接存放fwd。
(3)如果此节点是树节点,直接迁移此树到新表中,并且在表头存放fwd
(4)如果此节点为链表,此时有一个知识点,新表的长度为老表中的2倍,相当于2进制中的高位为1,也就是说链表中hash的二进制高位为1 的放到j+oldCap中,高位为0的则放到j中,并且是顺序放置。并且在表头存放fwd
(5)fwd表示此节点已经处理完成
(6)当迁移结束后,则将nextTable赋值给table,由于是volatile修饰,则对于其他线程是可见的。并且将nextTable赋值为null,为了下次扩容。
private final void transfer(Node<K,V>[] tab, Node<K,V>[] nextTab) {
int n = tab.length, stride;
if ((stride = (NCPU > 1) ? (n >>> 3) / NCPU : n) < MIN_TRANSFER_STRIDE)
stride = MIN_TRANSFER_STRIDE; // subdivide range
if (nextTab == null) { // initiating
try {
@SuppressWarnings("unchecked")
Node<K,V>[] nt = (Node<K,V>[])new Node<?,?>[n << 1];
nextTab = nt;
} catch (Throwable ex) { // try to cope with OOME
sizeCtl = Integer.MAX_VALUE;
return;
}
nextTable = nextTab;
transferIndex = n;
}
int nextn = nextTab.length;
ForwardingNode<K,V> fwd = new ForwardingNode<K,V>(nextTab);
boolean advance = true;
boolean finishing = false; // to ensure sweep before committing nextTab
for (int i = 0, bound = 0;;) {
Node<K,V> f; int fh;
while (advance) {
int nextIndex, nextBound;
if (--i >= bound || finishing)
advance = false;
else if ((nextIndex = transferIndex) <= 0) {
i = -1;
advance = false;
}
else if (U.compareAndSwapInt
(this, TRANSFERINDEX, nextIndex,
nextBound = (nextIndex > stride ?
nextIndex - stride : 0))) {
bound = nextBound;
i = nextIndex - 1;
advance = false;
}
}
if (i < 0 || i >= n || i + n >= nextn) {
int sc;
if (finishing) {
nextTable = null;
table = nextTab;
sizeCtl = (n << 1) - (n >>> 1);
return;
}
if (U.compareAndSwapInt(this, SIZECTL, sc = sizeCtl, sc - 1)) {
if ((sc - 2) != resizeStamp(n) << RESIZE_STAMP_SHIFT)
return;
finishing = advance = true;
i = n; // recheck before commit
}
}
else if ((f = tabAt(tab, i)) == null)
advance = casTabAt(tab, i, null, fwd);
else if ((fh = f.hash) == MOVED)
advance = true; // already processed
else {
synchronized (f) {
if (tabAt(tab, i) == f) {
Node<K,V> ln, hn;
if (fh >= 0) {
int runBit = fh & n;
Node<K,V> lastRun = f;
for (Node<K,V> p = f.next; p != null; p = p.next) {
int b = p.hash & n;
if (b != runBit) {
runBit = b;
lastRun = p;
}
}
if (runBit == 0) {
ln = lastRun;
hn = null;
}
else {
hn = lastRun;
ln = null;
}
for (Node<K,V> p = f; p != lastRun; p = p.next) {
int ph = p.hash; K pk = p.key; V pv = p.val;
if ((ph & n) == 0)
ln = new Node<K,V>(ph, pk, pv, ln);
else
hn = new Node<K,V>(ph, pk, pv, hn);
}
setTabAt(nextTab, i, ln);
setTabAt(nextTab, i + n, hn);
setTabAt(tab, i, fwd);
advance = true;
}
else if (f instanceof TreeBin) {
TreeBin<K,V> t = (TreeBin<K,V>)f;
TreeNode<K,V> lo = null, loTail = null;
TreeNode<K,V> hi = null, hiTail = null;
int lc = 0, hc = 0;
for (Node<K,V> e = t.first; e != null; e = e.next) {
int h = e.hash;
TreeNode<K,V> p = new TreeNode<K,V>
(h, e.key, e.val, null, null);
if ((h & n) == 0) {
if ((p.prev = loTail) == null)
lo = p;
else
loTail.next = p;
loTail = p;
++lc;
}
else {
if ((p.prev = hiTail) == null)
hi = p;
else
hiTail.next = p;
hiTail = p;
++hc;
}
}
ln = (lc <= UNTREEIFY_THRESHOLD) ? untreeify(lo) :
(hc != 0) ? new TreeBin<K,V>(lo) : t;
hn = (hc <= UNTREEIFY_THRESHOLD) ? untreeify(hi) :
(lc != 0) ? new TreeBin<K,V>(hi) : t;
setTabAt(nextTab, i, ln);
setTabAt(nextTab, i + n, hn);
setTabAt(tab, i, fwd);
advance = true;
}
}
}
}
}
}
2.3 get方法
get方法相对于hashMap多了一步find操作,如果key的hash<0则表示此table正在扩容,此节点为ForwardingNode,需要从ForwardingNode节点中的nextTable查询相应的值。
public V get(Object key) {
Node<K,V>[] tab; Node<K,V> e, p; int n, eh; K ek;
int h = spread(key.hashCode());
if ((tab = table) != null && (n = tab.length) > 0 &&
(e = tabAt(tab, (n - 1) & h)) != null) {
if ((eh = e.hash) == h) {
if ((ek = e.key) == key || (ek != null && key.equals(ek)))
return e.val;
}
else if (eh < 0)
return (p = e.find(h, key)) != null ? p.val : null;
while ((e = e.next) != null) {
if (e.hash == h &&
((ek = e.key) == key || (ek != null && key.equals(ek))))
return e.val;
}
}
return null;
}
总结1.7和1.8的区别:
1、并发结构不一致,1.7是segement+数组+链表,1.8是数组+链表+红黑树
2、锁机制不一样,1.7是ReentRantLock机制对segement加锁,而1.8则通过CAS和Synchronized对表头进行加锁
3、扩容方式不一样,1.7是对segement内部的表进行扩容,并且遍历oldtable,然后将数据迁移到新表中,而1.8使用多线程进行迁移,将旧表拆分成多个任务,分配给多个线程进行迁移。