看看1.8的ConcurrentHashMap源码

最新推荐文章于 2022-03-11 10:01:18 发布

先熬半个月

最新推荐文章于 2022-03-11 10:01:18 发布

阅读量157

点赞数

本文链接：https://blog.csdn.net/qq_35599414/article/details/105172646

版权

一、概述：

1、JDK1.8抛弃segment的用法（即没有了分段锁概念），采用了大量的CAS操作+sychornized（1.8也有一定优化）保证了线程安全。直接采用transient volatile HashEntry<K,V>[] table保存数据，采用table数组元素作为锁，从而实现了对每一行数据进行加锁，进一步减少并发冲突的概率。（锁的是第一个元素，所以单个链/红黑树就被锁了）

2、CAS(Compare And Swap)：CAS算法包含三个参数CAS(V, E, N)，判断预期值E和内存旧值是否相同(Compare)，如果相等用新值N覆盖旧值V(Swap)，否则失败；
当多个线程尝试使用CAS同时更新同一个变量时，只有其中一个线程能更新变量的值，其他线程失败（失败线程不会被阻塞，而是被告知“失败”，可以继续尝试）；
CAS在硬件层面可以被编译为机器指令执行，因此性能高于基于锁占有方式实现线程安全；

（注意：这里大量用volatile+cas的可见性+原子性来保证线程安全）

（CAS也存在ABA问题，这个后面博客分析）

3、乐观锁与悲观锁

悲观锁比如synchronized锁，为确保其他线程不会干扰当前线程工作，因此挂起其他需要锁的线程，等待持有锁的线程释放；

乐观锁总是假设没有冲突发生去做操作，如果检测到冲突就失败重试，知道成功为止；（CAS就是乐观锁）

4、整个map结构图：

整个map对应的数据结构参数说明：

transient volatile Node<K,V>[] table：键值对桶数组

private transient volatile Node<K,V>[] nextTable： rehash扩容时用到的新键值对数组

private transient volatile long baseCount：记录当前键值对总数，通过CAS更新，对所有线程可见

private transient volatile int sizeCtl

sizeCtl表示键值对总数阈值，通过CAS更新, 对所有线程可见

当sizeCtl < 0时，表示多个线程在等待扩容；

当sizeCtl = 0时，默认值；

当sizeCtl > 0时，表示扩容的阈值；

private transient volatile int cellBusy：自旋锁；

private transient volatile CounterCell[] counterCells: counter cell表，长度总为2的幂次；

static class Segment<K,V>：在JDK1.8中，Segment类仅仅在序列化和反序列化时发挥作用；

一个元素对应的数据结构:

static class Node<K,V> implements Map.Entry<K,V> {
    final int hash;
    final K key;
    // 键值对的value和next均为volatile类型
    volatile V val;              //保证可见性
    volatile Node<K,V> next;
    ...
}

二、源码分析

1、构造函数：（有多个，主要用无参）

1、无参

public ConcurrentHashMap() {
}

没有任何实现代码，这里同1.8的hashmap的构造方法思想（懒加载），构造方法先不进行初始化，只有去put元素的时候才会去初始化ConcurrentHashMap。

2、有参

public ConcurrentHashMap(int initialCapacity,
                         float loadFactor, int concurrencyLevel) {
    if (!(loadFactor > 0.0f) || initialCapacity < 0 || concurrencyLevel <= 0)
        throw new IllegalArgumentException();
    //concurrencyLevel表示估计的参与并发更新的线程数量，必须比初始化容量的要大
    if (initialCapacity < concurrencyLevel)   // Use at least as many bins
        initialCapacity = concurrencyLevel;   // as estimated threads
    long size = (long)(1.0 + (long)initialCapacity / loadFactor);
    int cap = (size >= (long)MAXIMUM_CAPACITY) ?
        MAXIMUM_CAPACITY : tableSizeFor((int)size);
    //整个构造方法过程就是为了能到这一步。
    //初始化只有这一个实际的赋值方法，因此是懒初始化的，当前的map是null的，sizeCtl存储的值是当前要初始化的map的size值
    this.sizeCtl = cap;
}

2、put方法：

public V put(K key, V value) { return putVal(key, value, false); }

2.1、putVal方法：

/** Implementation for put and putIfAbsent */
final V putVal(K key, V value, boolean onlyIfAbsent) {
    //concurrentHashMap中 key和value都不能为空
    if (key == null || value == null) throw new NullPointerException();
    int hash = spread(key.hashCode());
    int binCount = 0;
    //自旋操作，每次都把当前的table赋给tab
    for (Node<K,V>[] tab = table;;) {
        Node<K,V> f; int n, i, fh;
        //A:concurrentHashMap懒初始化，初始化表   （这里用CAS保证线程安全）
        if (tab == null || (n = tab.length) == 0)
            tab = initTable();
        //B:找到应该put的index对应的节点，并赋值给f    
        //如果node数组下标对应的node为空，则cas新建，由于自旋失败了也无所谓
        else if ((f = tabAt(tab, i = (n - 1) & hash)) == null) {
            if (casTabAt(tab, i, null,
                         new Node<K,V>(hash, key, value, null)))
                break;                   // no lock when adding to empty bin
        }
        //C:这种情况是其他线程在扩容，此时帮助一起扩容
        else if ((fh = f.hash) == MOVED)
            tab = helpTransfer(tab, f);
        //D：正常熟悉的哈希表的put流程   （synchronized保证线程安全）
        else {
            V oldVal = null;
            //针对单个node节点加锁
            synchronized (f) {
                //双重检测
                if (tabAt(tab, i) == f) {
                    //正常的节点hash值>0
                    if (fh >= 0) {
                        binCount = 1;
                        for (Node<K,V> e = f;; ++binCount) {
                            K ek;
                            if (e.hash == hash &&
                                ((ek = e.key) == key ||
                                 (ek != null && key.equals(ek)))) {
                                oldVal = e.val;
                                if (!onlyIfAbsent)
                                    e.val = value;
                                break;
                            }
                            Node<K,V> pred = e;
                            //每次将新节点插在队尾
                            if ((e = e.next) == null) {
                                pred.next = new Node<K,V>(hash, key,
                                                          value, null);
                                break;
                            }
                        }
                    }
                    //树节点hash值为-2
                    else if (f instanceof TreeBin) {
                        Node<K,V> p;
                        binCount = 2;
                        if ((p = ((TreeBin<K,V>)f).putTreeVal(hash, key,
                                                       value)) != null) {
                            oldVal = p.val;
                            if (!onlyIfAbsent)
                                p.val = value;
                        }
                    }
                }
            }
         //如果不是onlyIfAbsent为true，且已经找到了key对应的node的话都会来到这一步，因为都会插入成功。
//转换为红黑树  （synchornized的锁到这里就结束了，所以转换为红黑树的方法里面为保证线程安全则再用了synchornized去保证转换的时候线程安全）
            if (binCount != 0) {
                if (binCount >= TREEIFY_THRESHOLD)
                    treeifyBin(tab, i);
                if (oldVal != null)
                    return oldVal;
                break;
            }
        }
    }
    //E:size+1（加几看传进去的参数是几），里面会触发resize操作
    addCount(1L, binCount);
    return null;
}

2.2、putval中的初始化方法initTable（）：之前懒加载没有初始化currenthashmap。

/**
 * Initializes table, using the size recorded in sizeCtl.
sizeCtl：>0表示扩容阈值，=0即默认值，<0表示正在扩容
 */
private final Node<K,V>[] initTable() {
    Node<K,V>[] tab; int sc;
    //自旋操作，每次都对tab赋值而且判断tab的tab数组的长度
    while ((tab = table) == null || tab.length == 0) {//整个map为null此时进行自旋初始化
        //如果抢锁失败（sizeCtl是作为自选锁使用），则告诉cpu可以让出时间片
        //其他线程如果初始化表成功则自旋结束退出方法
        if ((sc = sizeCtl) < 0)//sc<0正在扩容，此时礼让时间片
            Thread.yield(); // lost initialization race; just spin（礼让时间片方法）
        else if (U.compareAndSwapInt(this, SIZECTL, sc, -1)) {
//cas操作把内存的sizeCtl的值改为-1，表示此时正在扩容。（sizeCtl是用volatile是内存可见性的，其他线程看到sizeCtl为-1则知道是正在扩容则会礼让时间片）
//compareAndSwapInt(this, SIZECTL, sc, -1)表示this对象中SIZECTL和sc（预期）做比较相等则将-1赋给SIZECTL并返回t，不相等则直接返回f即可。
            //此时抢锁成功
            try {
                //双重检测
                if ((tab = table) == null || tab.length == 0) {
                    int n = (sc > 0) ? sc : DEFAULT_CAPACITY;//大于0返回sc（自定义的sc），否则放回默认值16
                    @SuppressWarnings("unchecked")
                    Node<K,V>[] nt = (Node<K,V>[])new Node<?,?>[n];
                    table = tab = nt;
                    //sizeCtl置为n的0.75倍（即设置1扩容阈值）
                    sc = n - (n >>> 2);
                }
            } finally {
                //赋值顺便解锁（自旋锁轻量级锁）
                sizeCtl = sc;
            }
            //自旋结束
            break;
        }
    }
    return tab;
}

初始化的逻辑过程：依靠sizeCtl（用volatile修饰，保证内存可见性）的值来判断该map是在其他线程扩容、还是可以本线程自己扩容。下面用伪代码表示大概流程：

while（map为null判断）{//自旋操作。

if（sizeCtl<0）{ //表示该map正在被扩容 Thread.yield() //此时礼让时间片 }

else（sizeCtl>=0）{//表示自己可进行扩容

sizeCtl=-1 //利用内存可见性将该值赋值为-1（cas操作进行赋值），此时其他线程看见为-1知道正在扩容，则会礼让时间片。

if((sc > 0) ? sc : DEFAULT_CAPACITY){//当sc>0表示是自定义的sc此时直接用自定义的，当=0表示没有自定义所以用默认 sc=0.75sc //取原先的sc的0.75倍为扩容阈值。值 16 }

}

}

2.3、addCount(1L, binCount)方法，这里size+1，该方法里有扩容的代码逻辑和旧数据转移transfer方法（hashmap1.8中是resize方法扩容旧数据转移也在resize方法中完成，1.7扩容是resize方法旧数据转移是resize中的transfer方法）

//这个方法既可以做加法（put的时候调用）又可以做减法（remove或者clear的时候）
//只有对size做加法的时候才用检查resize
private final void addCount(long x, int check) {
    CounterCell[] as; long b, s;
    
    //1、这里获取真实的元素个数basecount
    if ((as = counterCells) != null ||
        !U.compareAndSwapLong(this, BASECOUNT, b = baseCount, s = b + x)) {

//1）不执行里面的代码：countcells数组为null且对basecount的修改成功（即不需要对countcells进行操作，直接对basecount进行操作成功即可）否则到2）
//2）执行里面的代码：此时要countcells数组不为null（则不去修改basecount）/修改不成功（此时countcells为null）（代表要对countcells进行修改/竞争修改basecount参数失败），此时竞争失败/没竞争则向countcells加上对应的x值，并一起去操作countcells数组中的值
        CounterCell a; long v; int m;
        boolean uncontended = true;
        if (as == null || (m = as.length - 1) < 0 ||
            (a = as[ThreadLocalRandom.getProbe() & m]) == null ||  //countcell数组的下标
            !(uncontended =
              U.compareAndSwapLong(a, CELLVALUE, v = a.value, v + x))) { //将x加到数组的value中
            fullAddCount(x, uncontended);//还加不上再进到该方法（如果加上去成功则直接return？？？）
            return;
        }
        if (check <= 1)
            return;
        //给s赋值为当前的哈希表的size（处理countcells数组的所有value并返回真实的basecoun数）
        s = sumCount();
    }
    //2、这里要开始判断到底需不需要resize
    if (check >= 0) {
        Node<K,V>[] tab, nt; int n, sc;
        //短路与的话看如何能够进入代码块，这里代码风格和以往一致，判断的同时赋值
        while (s >= (long)(sc = sizeCtl) && (tab = table) != null &&
               (n = tab.length) < MAXIMUM_CAPACITY) {
        //来到这里相当于就一定要resize了，至于这个戳有个印象就好，每次resize每个线程都确认一个戳！标识当前的size（当前的2的多次整数次幂）
 		//生成一个戳 算法是Integer.numberOfLeadingZeros(n) | (1 << (RESIZE_STAMP_BITS - 1));
        //如果n=16，则生成的值为0000000000000000010000000000011011（27和2的15次方相或）    
            int rs = resizeStamp(n);
            if (sc < 0) {
                //size<0表征当前正在resize
                //A :这里应该算是自旋的停止条件: 能够到达下一个if需要经过5个条件:
                //1. 可以对比一下上面和C的两个值，发现应该是要相等的
               // 2.sc!=rs+1;这个暂时不知道是什么意思
                //resizer线程不能超过最大允许数量;nextTable非空;transferIndex>=0（resize没结束）
                if ((sc >>> RESIZE_STAMP_SHIFT) != rs || sc == rs + 1 ||
                    sc == rs + MAX_RESIZERS || (nt = nextTable) == null ||
                    transferIndex <= 0)
                    break;
                //B : 每次将这个值SIZECTL cas+1 成功的话参与transfer
                if (U.compareAndSwapInt(this, SIZECTL, sc, sc + 1))
                    transfer(tab, nt);
            }
            //C: 第一个参与resize的线程：SIZECTL置为1000000000001101100000000000000010,这个值后面+2是为了计算上面的停止条件的，不能让resizer线程无限制增加
            else if (U.compareAndSwapInt(this, SIZECTL, sc,
                                         (rs << RESIZE_STAMP_SHIFT) + 2))
                transfer(tab, null);
            //到了这里就是resize完成了，然后通过下一个while自旋判断是否需要再次resize
            s = sumCount();
        }
    }
}

addCount方法代表size+1并扩容操作

（1）map的元素个数size是怎么统计的

basecount：basecount是一个统计map中元素个数的参数

CounterCell[]：当多个线程都去竞争basecount参数时，如果只有一个竞争到了，那么其他线程就会在CounterCell[]写下对于basecount参数的修改（cas）（每个countercell数组元素都有一个参数value对应对basecount的操作），当每次求每个map的size时会调用统计方法sumCount（），该方法中会将basecount加上countercell数组中每个元素对应的value值。

总结：用basecount统计个数，countcell[]记录竞争失败的线程要对basecount所做的操作（例加1，则将其中的value赋值为1）。

每次要获取map的个数时调用sumcount方法（basecount = basecount+countcell[].value）。（即countcell[]是记录失败线程的数组的备忘录/计数器，等正真要获取时再去执行备忘录/计数器里的东西，可以防止其他线程继续竞争提高效率。）（注意期间的就该记录等都是用cas保证安全的，这些参数都有volatile修饰的）

（2）第一个if是用来获取真实的map元素个数basecount。（cas）

//1）不执行里面的代码：countcells数组为null且对basecount的修改成功（即不需要对countcells进行操作，直接对basecount进行操作成功即可）否则到2）
//2）执行里面的代码：此时要countcells数组不为null（则不去修改basecount）/修改不成功（此时countcells为null）（代表要对countcells进行修改/竞争修改basecount参数失败），此时竞争失败/没竞争则向countcells加上对应的x值，并一起去操作countcells数组中的值

（3）第二个if判断进不进行resize扩容。（cas）

注意：这里有一个check参数，表示链表的元素个数（是addcount方法的第二个参数，默认是0）（remove方法中的addcount（x，bincount）都是-1，则check=bincount也是-1，则不需要扩容检查）所以check<不需要进行扩容。

2.4、addCount方法中的转移旧数据方法transfer（）。（最难方法）

/**
 * Moves and/or copies the nodes in each bin to new table. See
 * above for explanation.
 */
private final void transfer(Node<K,V>[] tab, Node<K,V>[] nextTab) {
    int n = tab.length, stride;
    //stride表征的是每一个thread进来的时候要搬运的量
    if ((stride = (NCPU > 1) ? (n >>> 3) / NCPU : n) < MIN_TRANSFER_STRIDE)
        stride = MIN_TRANSFER_STRIDE; // subdivide range
    if (nextTab == null) {            // initiating
        try {
            @SuppressWarnings("unchecked")
            Node<K,V>[] nt = (Node<K,V>[])new Node<?,?>[n << 1];
            nextTab = nt;
        } catch (Throwable ex) {      // try to cope with OOME
            sizeCtl = Integer.MAX_VALUE;
            return;
        }
        //第一次进来resize的时候初始化下一次需要的table，
        //transferIndex赋值为n，意味着从后往前循环进行表转移
        nextTable = nextTab;
        transferIndex = n;
    }
    int nextn = nextTab.length;
    //这个节点第一次看会很懵，在这个方法中是用来表征当前tab[i]的节点不需要被搬运的意思
    ForwardingNode<K,V> fwd = new ForwardingNode<K,V>(nextTab);
    boolean advance = true;
    boolean finishing = false; // to ensure sweep before committing nextTab
    //自旋操作并初始化i和bound，i为操作索引，bound为下限
    for (int i = 0, bound = 0;;) {
        Node<K,V> f; int fh;
 //A advance表征是否继续走下去：1.是否继续--i来转移表 2.是否继续cas TRANSFERINDEX来获取当前的i值
        while (advance) {
            int nextIndex, nextBound;
            if (--i >= bound || finishing)
                advance = false;
            else if ((nextIndex = transferIndex) <= 0) {
                i = -1;
                advance = false;
            }
            else if (U.compareAndSwapInt
                     (this, TRANSFERINDEX, nextIndex,
                      nextBound = (nextIndex > stride ?
                                   nextIndex - stride : 0))) {
           //第一次进入的时候如果到达了这里则接到了当前应该进行的任务：负责搬运[nextBound:i]之间的内容
                bound = nextBound;
                i = nextIndex - 1;
                advance = false;
            }
        }
        //B 当线程到达这里则证明家搬运结束，或者异常停止
        if (i < 0 || i >= n || i + n >= nextn) {
            int sc;
            //如果其他人已经设置了这个标志位，则正式完成并return
            if (finishing) {
                nextTable = null;
                table = nextTab;
                sizeCtl = (n << 1) - (n >>> 1);
                return;
            }
            
            if (U.compareAndSwapInt(this, SIZECTL, sc = sizeCtl, sc - 1)) {
                //这个判定条件在addCount的A段方法解释过
                //意思就是双重校验失败的意思，其他线程已经做过了这个操作了
                if ((sc - 2) != resizeStamp(n) << RESIZE_STAMP_SHIFT)
                    return;
                finishing = advance = true;
                i = n; // recheck before commit
            }
        }
        //C 如果领取到了的任务i对应的tab[i] 为空，那恭喜了把fwd贴上去然后继续领活吧，cas失败也不要紧~下次来看看tab[0]是不是被打标签了，是的话恭喜了，继续加班吧，不是的话就再试试cas总会有加班的一天的
        else if ((f = tabAt(tab, i)) == null)
            advance = casTabAt(tab, i, null, fwd);
        //D 意思是就是已经被别人打上了fwd的表情，可以重新领取任务了
        else if ((fh = f.hash) == MOVED)
            advance = true; // already processed
        //E搬运的主线流程
        else {
            synchronized (f) {
                //双重检测
                if (tabAt(tab, i) == f) {
                    Node<K,V> ln, hn;
                    //如果不是树节点
                    if (fh >= 0) {
                        int runBit = fh & n;
                        Node<K,V> lastRun = f;
                        //这里的高低位的分法其实和1.7 concurrentHashMap一样的逻辑，这里不解释了
                        for (Node<K,V> p = f.next; p != null; p = p.next) {
                            int b = p.hash & n;
                            if (b != runBit) {
                                runBit = b;
                                lastRun = p;
                            }
                        }
                        if (runBit == 0) {
                            ln = lastRun;
                            hn = null;
                        }
                        else {
                            hn = lastRun;
                            ln = null;
                        }
                        for (Node<K,V> p = f; p != lastRun; p = p.next) {
                            int ph = p.hash; K pk = p.key; V pv = p.val;
                            if ((ph & n) == 0)
                                ln = new Node<K,V>(ph, pk, pv, ln);
                            else
                                hn = new Node<K,V>(ph, pk, pv, hn);
                        }
                        setTabAt(nextTab, i, ln);
                        setTabAt(nextTab, i + n, hn);
  //注意这里! 将第tab的第i个项的node设为fwd，这样就意味着这个节点不需要再次被搬运了，同时他的hash值=-1
                        setTabAt(tab, i, fwd);
  //搬运了一次，会重置i和bound继续自旋领取任务作为码农的奖励，这里别以为帮大家搬砖一次就完事了，就像你进了单位以为干完活就能早下班，实际上领导看你有空会给你继续派活直到整个组都没活干为止
                        advance = true;
                    }
                    else if (f instanceof TreeBin) {
                        TreeBin<K,V> t = (TreeBin<K,V>)f;
                        TreeNode<K,V> lo = null, loTail = null;
                        TreeNode<K,V> hi = null, hiTail = null;
                        int lc = 0, hc = 0;
                        for (Node<K,V> e = t.first; e != null; e = e.next) {
                            int h = e.hash;
                            TreeNode<K,V> p = new TreeNode<K,V>
                                (h, e.key, e.val, null, null);
                            if ((h & n) == 0) {
                                if ((p.prev = loTail) == null)
                                    lo = p;
                                else
                                    loTail.next = p;
                                loTail = p;
                                ++lc;
                            }
                            else {
                                if ((p.prev = hiTail) == null)
                                    hi = p;
                                else
                                    hiTail.next = p;
                                hiTail = p;
                                ++hc;
                            }
                        }
                        ln = (lc <= UNTREEIFY_THRESHOLD) ? untreeify(lo) :
                            (hc != 0) ? new TreeBin<K,V>(lo) : t;
                        hn = (hc <= UNTREEIFY_THRESHOLD) ? untreeify(hi) :
                            (lc != 0) ? new TreeBin<K,V>(hi) : t;
                        setTabAt(nextTab, i, ln);
                        setTabAt(nextTab, i + n, hn);
                        //这里和以上一个道理
                        setTabAt(tab, i, fwd);
                        advance = true;
                    }
                }
            }
        }
    }
}

关于tranfer的大概流程：

上面是对于每条链/树的大概转移流程，下面说说每条链/树上的node元素转移总结：

1、每条链的转移都被sychornized修饰，所以不用担心转移的时候被其他线程put进来

2、对于尾部有重算key后相同的元素，只转移第一个元素（和1.7的小优化一样）

3、其他元素的转移和1.8的hashmap的差不多。

2.5、putval的helpTransfer方法：帮助其他线程一起扩容（大大提高扩容性能）

/**
 * Helps transfer if a resize is in progress.
 */
final Node<K,V>[] helpTransfer(Node<K,V>[] tab, Node<K,V> f) {
    Node<K,V>[] nextTab; int sc;
    if (tab != null && (f instanceof ForwardingNode) &&
        (nextTab = ((ForwardingNode<K,V>)f).nextTable) != null) {
        int rs = resizeStamp(tab.length);
        while (nextTab == nextTable && table == tab &&
               (sc = sizeCtl) < 0) {
            if ((sc >>> RESIZE_STAMP_SHIFT) != rs || sc == rs + 1 ||
                sc == rs + MAX_RESIZERS || transferIndex <= 0)
                break;
            if (U.compareAndSwapInt(this, SIZECTL, sc, sc + 1)) {
                transfer(tab, nextTab);
                break;
            }
        }
        return nextTab;
    }
    return table;
}

这里就是1.8的currenthashmap支持多线程扩容（1.7不支持）：

当多个线程进行扩容时，此时每个线程会分配一些旧数组的区域进行转移元素，每次转移都会从右向左一次转移，当每个线程转移完时会再次计算是否需要转移其他位置的元素，如不用则直接退出。

而在每个线程转移单个链/树时会给该链/树加上sychornized锁，这样可以不用担心put到该链的情况出现，而且每次转移完后线程会给该链/树的为重赋值fwd对象，这样其他线程看到就知道该数组正在扩容，且这里是转移完了的。

3、get方法

public V get(Object key) {
    Node<K,V>[] tab; Node<K,V> e, p; int n, eh; K ek;
    int h = spread(key.hashCode());
    if ((tab = table) != null && (n = tab.length) > 0 &&
        (e = tabAt(tab, (n - 1) & h)) != null) {
        if ((eh = e.hash) == h) {
            if ((ek = e.key) == key || (ek != null && key.equals(ek)))
                return e.val;
        }
        else if (eh < 0)
            return (p = e.find(h, key)) != null ? p.val : null;
        while ((e = e.next) != null) {
            if (e.hash == h &&
                ((ek = e.key) == key || (ek != null && key.equals(ek))))
                return e.val;
        }
    }
    return null;
}

部分参考https://www.cnblogs.com/kobebyrant/p/11296309.html