ConcurrentHashMap源码分析(一)
视频资料:https://space.bilibili.com/488677881?from=search&seid=13915242177114628802
文档资料:https://zhuanlan.zhihu.com/p/133923068
一、Unsafe介绍
1、Unsafe简介
Unsafe类相当于是一个java语言中的后门类,提供了硬件级别的原子操作,所以在一些并发编程中被大量使用。jdk已经作出说明,该类对程序员而言不是一个安全操作,在后续的jdk升级过程中,可能会禁用该类。所以这个类的使用是一把双刃剑,实际项目中谨慎使用,以免造成jdk升级不兼容问题。
2、Unsafe Api
这里并不系统讲解Unsafe的所有功能,只介绍和接下来内容相关的操作
arrayBaseOffset
:获取数组的基础偏移量
arrayIndexScale
:获取数组中元素的偏移间隔,要获取对应所以的元素,将索引号和该值相乘,获得数组中指定角标元素的偏移量
getObjectVolatile
:获取对象上的属性值或者数组中的元素
getObject
:获取对象上的属性值或者数组中的元素,已过时
putOrderedObject
:设置对象的属性值或者数组中某个角标的元素,更高效
putObjectVolatile
:设置对象的属性值或者数组中某个角标的元素
putObject
:设置对象的属性值或者数组中某个角标的元素,已过时
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NFshOVm2-1621601318475)(/Users/apple/Library/Application Support/typora-user-images/image-20210520221818576.png)]
3、代码演示
public class Test02 {
public static void main(String[] args) throws Exception {
Integer[] arr = {2,5,1,8,10};
//获取Unsafe对象
Unsafe unsafe = getUnsafe();
//获取Integer[]的基础偏移量
int baseOffset = unsafe.arrayBaseOffset(Integer[].class);
//获取Integer[]中元素的偏移间隔
int indexScale = unsafe.arrayIndexScale(Integer[].class);
//获取数组中索引为2的元素对象
Object o = unsafe.getObjectVolatile(arr, (2 * indexScale) + baseOffset);
System.out.println(o); //1
//设置数组中索引为2的元素值为100
unsafe.putOrderedObject(arr,(2 * indexScale) + baseOffset,100);
System.out.println(Arrays.toString(arr));//[2, 5, 100, 8, 10]
}
//反射获取Unsafe对象
public static Unsafe getUnsafe() throws Exception {
Field theUnsafe = Unsafe.class.getDeclaredField("theUnsafe");
theUnsafe.setAccessible(true);
return (Unsafe) theUnsafe.get(null);
}
}
3.1、图解说明
二、jdk1.7容器初始化
1、源码解析
无参构造
//空参构造
public ConcurrentHashMap() {
//调用本类的带参构造
//DEFAULT_INITIAL_CAPACITY = 16 //segment数组的容量
//DEFAULT_LOAD_FACTOR = 0.75f //扩容时使用
//int DEFAULT_CONCURRENCY_LEVEL = 16 //segment数组的容量
this(DEFAULT_INITIAL_CAPACITY, DEFAULT_LOAD_FACTOR, DEFAULT_CONCURRENCY_LEVEL);
}
三个参数的构造:一些非核心逻辑的代码已经省略
//initialCapacity 定义ConcurrentHashMap存放元素的容量
//concurrencyLevel 定义ConcurrentHashMap中Segment[]的大小
//因此,一开始默认每个Segment下HashEntry的容量 = initialCapacity / concurrencyLevel
public ConcurrentHashMap(int initialCapacity,
float loadFactor, int concurrencyLevel) {
int sshift = 0;
int ssize = 1;
//计算Segment[]的大小,保证是2的幂次方数,默认为16
while (ssize < concurrencyLevel) {
++sshift;
ssize <<= 1;
}
//这两个值用于后面计算Segment[]的角标
this.segmentShift = 32 - sshift; //默认sshift = 14
this.segmentMask = ssize - 1; //默认ssize = 16, ssize - 1 = 15
//计算每个Segment中存储元素的个数
int c = initialCapacity / ssize; // c = 1
if (c * ssize < initialCapacity)
++c;
//最小Segment中存储元素的个数为2
int cap = MIN_SEGMENT_TABLE_CAPACITY; // cap = 2
矫正每个Segment中存储元素的个数,保证是2的幂次方,最小为2
while (cap < c)
cap <<= 1;
//创建一个Segment对象,作为其他Segment对象的模板
Segment<K,V> s0 =
new Segment<K,V>(loadFactor, (int)(cap * loadFactor),
(HashEntry<K,V>[])new HashEntry[cap]);
Segment<K,V>[] ss = (Segment<K,V>[])new Segment[ssize];
//利用Unsafe类,将创建的Segment对象存入0角标位置
//putOrderedObject:设置对象的属性值或者数组中某个角标的元素。该方法不保证线程安全
//构造方法没有线程安全的风险,因此使用高效的putOrderedObject
UNSAFE.putOrderedObject(ss, SBASE, s0); // ordered write of segments[0]
this.segments = ss;
}
综上:ConcurrentHashMap中保存了一个默认长度为16的Segment[],每个Segment元素中保存了一个默认长度为2的HashEntry[],我们添加的元素,是存入对应的Segment中的HashEntry[]中。所以ConcurrentHashMap中默认元素的长度是32个,而不是16个
2、图解
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HHLi8lsh-1621601318479)(/Users/apple/Library/Application Support/typora-user-images/image-20210521185057388.png)]
3、Segment是什么?
static final class Segment<K,V> extends ReentrantLock implements Serializable {
...
}
Segment是继承自ReentrantLock的,它可以实现同步操作,从而保证多线程下的安全。因为每个Segment之间的锁互不影响,将ConcurrentHashMap中的这种锁机制称之为分段锁,比HashTable的线程安全操作高效的多。
4、HashEntry是什么?
//ConcurrentHashMap中真正存储数据的对象
static final class HashEntry<K,V> {
final int hash; //通过运算,得到的键的hash值
final K key; // 存入的键
volatile V value; //存入的值
volatile HashEntry<K,V> next; //记录下一个元素,形成单向链表
HashEntry(int hash, K key, V value, HashEntry<K,V> next) {
this.hash = hash;
this.key = key;
this.value = value;
this.next = next;
}
}
三、jdk1.7添加安全
1、源码分析
1.1、ConcurrentHashMap的put方法
public V put(K key, V value) {
Segment<K,V> s;
if (value == null)
throw new NullPointerException();
//基于key,计算hash值
int hash = hash(key);
//因为一个键要计算两个数组的索引,为了避免冲突,这里取高位计算Segment[]的索引
//hash二进制为32位,右移28为。表示只要hash的高4位
//然后把它和掩码15进行与运算,得到的值一定是一个 0000 ~ 1111 范围内的值,即 0~15。即segment下标
int j = (hash >>> segmentShift) & segmentMask; // segmentShift = 28 segmentMask = 16
//判断该索引位的Segment对象是否创建,没有就创建
if ((s = (Segment<K,V>)UNSAFE.getObject //getObject获取Segment对象
(segments, (j << SSHIFT) + SBASE)) == null) // in ensureSegment
s = ensureSegment(j);
//调用Segmetn的put方法实现元素添加
return s.put(key, hash, value, false);
}
/*UNSAFE.getObject (segments, (j << SSHIFT) + SBASE。它是为了通过Unsafe这个类,找到 j 最新的实际值。这个计算 (j << SSHIFT) + SBASE ,在后边非常常见,我们只需要知道它代表的是 j 的一个偏移量,通过偏移量,就可以得到 j 的实际值*/
1.2、ConcurrentHashMap的ensureSegment方法
//创建对应索引位的Segment对象,并返回
private Segment<K,V> ensureSegment(int k) {
final Segment<K,V>[] ss = this.segments;
long u = (k << SSHIFT) + SBASE; // raw offset
Segment<K,V> seg;
//获取,如果为null,即创建
if ((seg = (Segment<K,V>)UNSAFE.getObjectVolatile(ss, u)) == null) {
//以0角标位的Segment为模板
Segment<K,V> proto = ss[0]; // use segment 0 as prototype
int cap = proto.table.length;
float lf = proto.loadFactor;
int threshold = (int)(cap * lf);
HashEntry<K,V>[] tab = (HashEntry<K,V>[])new HashEntry[cap];
//获取,如果为null,即创建 保证多线程环境下的问题
if ((seg = (Segment<K,V>)UNSAFE.getObjectVolatile(ss, u))
== null) { // recheck
//创建
Segment<K,V> s = new Segment<K,V>(lf, threshold, tab);
//自旋方式,将创建的Segment对象放到Segment[]中,确保线程安全
while ((seg = (Segment<K,V>)UNSAFE.getObjectVolatile(ss, u))
== null) {
if (UNSAFE.compareAndSwapObject(ss, u, null, seg = s))
break;
}
}
}
//返回
return seg;
}
/*
在多线程环境下,因为不确定是什么时候会有其它线程 CAS 成功,有可能发生在以上的任意时刻。所以,只要发现一旦内存中的对象已经存在了,则说明已经有其它线程把Segment对象创建好,并CAS成功同步到主内存了。此时,就可以直接返回,而不需要往下执行了。这样做,是为了代码执行效率考虑。
*/
1.3、Segment的put方法
final V put(K key, int hash, V value, boolean onlyIfAbsent) {
//这里通过tryLock尝试加锁,如果加锁成功,返回null,否则执行 scanAndLockForPut方法
//这里说明一下,tryLock 和 lock 是 ReentrantLock 中的方法,
//区别是 tryLock 不会阻塞,抢锁成功就返回true,失败就立马返回false,
//而 lock 方法是,抢锁成功则返回,失败则会进入同步队列,阻塞等待获取锁。
//如果有其他线程占据锁对象,那么去做别的事情,而不是一直等待,提升效率
//scanAndLockForPut 稍后分析
HashEntry<K,V> node = tryLock() ? null :
scanAndLockForPut(key, hash, value);
V oldValue;
try {
HashEntry<K,V>[] tab = table;
//取hash的低位,计算HashEntry[]的索引
int index = (tab.length - 1) & hash;
//获取索引位的元素对象
HashEntry<K,V> first = entryAt(tab, index);
for (HashEntry<K,V> e = first;;) {
//获取的元素对象不为空
if (e != null) {
K k;
//如果是重复元素,覆盖原值
if ((k = e.key) == key ||
(e.hash == hash && key.equals(k))) {
oldValue = e.value;
if (!onlyIfAbsent) {
e.value = value;
++modCount;
}
break;
}
//如果不是重复元素,获取链表的下一个元素,继续循环遍历链表
e = e.next;
}
else { //如果获取到的元素为空
//当前添加的键值对的HashEntry对象已经创建
if (node != null)
node.setNext(first); //头插法关联即可
else
//创建当前添加的键值对的HashEntry对象
node = new HashEntry<K,V>(hash, key, value, first);
//添加的元素数量递增
int c = count + 1;
//判断是否需要扩容
if (c > threshold && tab.length < MAXIMUM_CAPACITY)
//需要扩容
rehash(node);
else
//不需要扩容
//将当前添加的元素对象,存入数组角标位,完成头插法添加元素
setEntryAt(tab, index, node);
++modCount;
count = c;
oldValue = null;
break;
}
}
} finally {
//释放锁
unlock();
}
return oldValue;
}
1.4、Segment的scanAndLockForPut方法
该方法在线程没有获取到锁的情况下,去完成HashEntry对象的创建,提升效率。
会一直循环尝试获取锁,若获取成功,则返回。否则的话,每次循环时,都会同时遍历当前链表。若遍历完了一次,还没找到和key相等的节点,就会预先创建一个节点。
scanAndLockForPut 这个方法可以确保返回时,当前线程一定是获取到锁的状态。
private HashEntry<K,V> scanAndLockForPut(K key, int hash, V value) {
//获取头部元素
HashEntry<K,V> first = entryForHash(this, hash);
HashEntry<K,V> e = first;
HashEntry<K,V> node = null;
int retries = -1; // negative while locating node
while (!tryLock()) {
//获取锁失败
HashEntry<K,V> f; // to recheck first below
if (retries < 0) {
//没有下一个节点,并且也不是重复元素,创建HashEntry对象,不再遍历
//预测性的创建一个node节点
if (e == null) {
if (node == null) // speculatively create node
node = new HashEntry<K,V>(hash, key, value, null);
retries = 0;
}
else if (key.equals(e.key))
//重复元素,不创建HashEntry对象,不再遍历
retries = 0;
else
//继续遍历下一个节点
e = e.next;
}
else if (++retries > MAX_SCAN_RETRIES) {
//如果尝试获取锁的次数过多,直接加锁阻塞
//MAX_SCAN_RETRIES会根据可用cpu核数来确定 多核情况下为64次,单核为1次
lock();
break;
}
else if ((retries & 1) == 0 &&
(f = entryForHash(this, hash)) != first) {
//如果期间有别的线程获取锁,重新遍历
e = first = f; // re-traverse if entry changed
retries = -1;
}
}
return node;
}
2、模拟多线程的代码流程
这里“通话”和“重地”的哈希值是一样的,那么他们添加时,会存入同一个Segment对象,必然会存在锁竞争
public static void main(String[] args) throws Exception {
final ConcurrentHashMap chm = new ConcurrentHashMap();
new Thread(){
@Override
public void run() {
chm.put("通话","11");
System.out.println("-----------");
}
}.start();
//让第一个线程先启动,进入put方法
Thread.sleep(1000);
new Thread(){
@Override
public void run() {
chm.put("重地","22");
System.out.println("===========");
}
}.start();
}
2.1、多线程环境下的条件断点设置
2.2、运行结果
会发现两个线程,分别停在不同的断点位置,这就是多线程锁互斥产生的结果
然后就可以分别让不同的线程向下执行,查看代码走向了。
四、jdk1.7扩容安全
1、源码分析
当 put 方法时,发现元素个数超过了阈值,则会扩容。需要注意的是,每个Segment只管它自己的扩容,互相之间并不影响。换句话说,可以出现这个 Segment的长度为2,另一个Segment的长度为4的情况(只要是2的n次幂)
//node为创建的新节点
private void rehash(HashEntry<K,V> node) {
//当前Segment中的旧表
HashEntry<K,V>[] oldTable = table;
//旧的容量
int oldCapacity = oldTable.length;
//新容量为旧容量的2倍
int newCapacity = oldCapacity << 1;
//更新新的阈值
threshold = (int)(newCapacity * loadFactor);
//用新的容量创建一个新的 HashEntry 数组
HashEntry<K,V>[] newTable =
(HashEntry<K,V>[]) new HashEntry[newCapacity];
//当前的掩码,用于计算节点在新数组中的下标
int sizeMask = newCapacity - 1;
//遍历旧表
for (int i = 0; i < oldCapacity ; i++) {
HashEntry<K,V> e = oldTable[i];
//如果e不为空,说明当前链表不为空
if (e != null) {
HashEntry<K,V> next = e.next;
//计算hash值再新数组中的下标位置
int idx = e.hash & sizeMask;
//如果e不为空,且它的下一个节点为空,则说明这条链表只有一个节点,
//直接把这个节点放到新数组的对应下标位置即可
if (next == null) // Single node on list
newTable[idx] = e;
//否则,处理当前链表的节点迁移操作
else { // Reuse consecutive sequence at same slot
//记录上一次遍历到的节点
HashEntry<K,V> lastRun = e;
//对应上一次遍历到的节点在新数组中的新下标
int lastIdx = idx;
for (HashEntry<K,V> last = next;
last != null;
last = last.next) {
//计算当前遍历到的节点的新下标
int k = last.hash & sizeMask;
//若 k 不等于 lastIdx,则说明此次遍历到的节点和上次遍历到的节点不在同一个下标位置
//需要把 lastRun 和 lastIdx 更新为当前遍历到的节点和下标值。
//若相同,则不处理,继续下一次 for 循环。
if (k != lastIdx) {
lastIdx = k;
lastRun = last;
}
}
//把和 lastRun 节点的下标位置相同的链表最末尾的几个连续的节点放到新数组的对应下标位置
newTable[lastIdx] = lastRun;
//再把剩余的节点,复制到新数组
//从旧数组的头结点开始遍历,直到 lastRun 节点,因为 lastRun节点后边的节点都已经迁移完成了。
for (HashEntry<K,V> p = e; p != lastRun; p = p.next) {
V v = p.value;
int h = p.hash;
int k = h & sizeMask;
HashEntry<K,V> n = newTable[k];
//用的是复制节点信息的方式,并不是把原来的节点直接迁移,区别于lastRun处理方式
newTable[k] = new HashEntry<K,V>(h, p.key, v, n);
}
}
}
}
//所有节点都迁移完成之后,再处理传进来的新的node节点,把它头插到对应的下标位置
int nodeIndex = node.hash & sizeMask; // add the new node
//头插node节点
node.setNext(newTable[nodeIndex]);
newTable[nodeIndex] = node;
//更新当前Segment的table信息
table = newTable;
}
五、jdk1.7集合长度获取
1、源码分析
其实源码中前两行的注释也说的非常清楚了。我们先采用乐观的方式,认为在统计 size 的过程中,并没有发生 put, remove 等会改变 Segment 结构的操作。 但是,如果发生了,就需要重试。如果重试2次都不成功(执行三次,第一次不能叫做重试),就只能强制把所有 Segment 都加锁之后,再统计了,以此来得到准确的结果。
public int size() {
// Try a few times to get accurate count. On failure due to
// continuous async changes in table, resort to locking.
final Segment<K,V>[] segments = this.segments;
int size;
boolean overflow; // true if size overflows 32 bits
long sum; // sum of modCounts
long last = 0L; // previous sum
int retries = -1; // first iteration isn't retry
try {
for (;;) {
//当第5次走到这个地方时,会将整个Segment[]的所有Segment对象锁住
if (retries++ == RETRIES_BEFORE_LOCK) {
for (int j = 0; j < segments.length; ++j)
ensureSegment(j).lock(); // force creation
}
sum = 0L;
size = 0;
overflow = false;
for (int j = 0; j < segments.length; ++j) {
Segment<K,V> seg = segmentAt(segments, j);
if (seg != null) {
//累加所有Segment的操作次数
sum += seg.modCount;
int c = seg.count;
//累加所有segment中的元素个数 size+=c
if (c < 0 || (size += c) < 0)
overflow = true;
}
}
//当这次累加值和上一次累加值一样,证明没有进行新的增删改操作,返回sum
//第一次last为0,如果有元素的话,这个for循环最少循环两次的
if (sum == last)
break;
//记录累加的值
last = sum;
}
} finally {
//如果之前有锁住,解锁
if (retries > RETRIES_BEFORE_LOCK) {
for (int j = 0; j < segments.length; ++j)
segmentAt(segments, j).unlock();
}
}
//溢出,返回int的最大值,否则返回累加的size
return overflow ? Integer.MAX_VALUE : size;
}