并发编程学习之ConcurrentHashMap扩容机制

最新推荐文章于 2024-08-21 09:51:12 发布

每天都要进步一点点

最新推荐文章于 2024-08-21 09:51:12 发布

阅读量1.7k

点赞数 1

分类专栏： # 并发编程文章标签：扩容 JUC 多线程并发编程

本文链接：https://blog.csdn.net/Weixiaohuai/article/details/104761457

版权

并发编程专栏收录该内容

40 篇文章 4 订阅

订阅专栏

一、简介

二、扩容思路

三、ConcurrentHashMap扩容源码阅读

三、总结

一、简介

在ConcurrentHashMap中，比较复杂部分就是其扩容机制，因为涉及到多个线程分工合作完成数据迁移和key的rehash操作。

二、扩容思路

ConcurrentHashMap扩容一般分为两个步骤：

【a】Node<K,V>[] table数组的扩容，一般是扩大到原来数组大小的两倍；
【b】key的rehash以及数据的迁移：因为计算key在桶中的索引index跟数组的大小有关，现在数组大小扩大了，那么相应的数组索引也可能发生变化，这就是rehash。所谓数据迁移，就是将原来table数组的各个槽中的节点重新分配到新创建的nextTable中。

注意，ConcurrentHashMap在rehash的时候，并不会重新计算每个key的hash值，而是利用了一种很巧妙的方式。我们都知道ConcurrentHashMap内部的table数组的大小必须为2的幂次，原因是让key均匀分布，减少hash冲突。

还有就是，当table数组的大小为2的幂次时，我们通过下面的方式计算出来的索引index：

key.hash & table.length-1

这样在table扩容到两倍大小时，新的索引要么在原来的位置i，要么是i+n。

举个例子，假设扩容前table数组大小为16，有两个key：

length-1=15： 0000 0000 0000 0000 0000 0000 0000 1111

key1("A")的hash：0000 0000 0000 0000 0000 0000 0100 0001

key2("B")的hash：0000 0000 0000 0000 0000 0000 0100 0010

=======================================================================

&运算后key1： 0000 0000 0000 0000 0000 0000 0000 0001 = 索引为1

&运算后key2： 0000 0000 0000 0000 0000 0000 0000 0010 = 索引为2

扩容后，table变为长度32，同样是上面两个key：

length-1=31： 0000 0000 0000 0000 0000 0000 0001 1111

key1("A")的hash：0000 0000 0000 0000 0000 0000 0100 0001

key2("B")的hash：0000 0000 0000 0000 0000 0000 0100 0010

=======================================================================

&运算后key1： 0000 0000 0000 0000 0000 0000 0000 0001 = 索引还为1

&运算后key2： 0000 0000 0000 0000 0000 0000 0000 0010 = 索引还为2

由此验证了上面的：table扩容到两倍大小时，新的索引要么在原来的位置i，要么是i+n。

这种处理方式对于扩容时多个线程同时进行数据迁移操作非常有利，因为旧table的各个桶中的结点迁移不会互相影响，可以采用“分工合作”的方式，将整个table数组划分为很多区间部分，每一部分包含一定区间的桶，每个数据迁移线程处理各自区间中的结点。

三、ConcurrentHashMap扩容源码阅读

接下来，我们看看ConcurrentHashMap是什么情况下会发生扩容。通过上一节文章，我们知道了：

当链表中的节点数量超过一定的阈值(通常为8)时，会发生链表转换为红黑树结构。

if (binCount != 0) {
    if (binCount >= TREEIFY_THRESHOLD)
        treeifyBin(tab, i);
    if (oldVal != null)
        return oldVal;
    break;
}

其中转换方法就是：treeifyBin(tab, i)：

/**
 * 链表转换为红黑树的主要方法.
 */
private final void treeifyBin(Node<K,V>[] tab, int index) {
    Node<K,V> b; int n, sc;
    if (tab != null) {
        //这里可以看到，链表转换为红黑树结构不单单只是链表节点数量超出阈值8
        //第二重判断：table的容量是否小于64，如果小于64, 直接进行table扩容，不会发生红黑树转换
        //因此链表->红黑树 ，不一定链表节点数量超过阈值就发生。
        if ((n = tab.length) < MIN_TREEIFY_CAPACITY)
            //table数组扩容重要方法
            tryPresize(n << 1);          
        else if ((b = tabAt(tab, index)) != null && b.hash >= 0) {  //table的容量大于等于64时，链表将转换为红黑树
            //锁住table[index]链表头节点
            synchronized (b) {
                //再次判断，防止table[i]被其他线程修改
                if (tabAt(tab, index) == b) {
                    TreeNode<K,V> hd = null, tl = null;
                    //循环遍历链表，将每个Node节点转换为TreeNode树节点
                    for (Node<K,V> e = b; e != null; e = e.next) {
                        //构建TreeNode树节点
                        TreeNode<K,V> p =
                            new TreeNode<K,V>(e.hash, e.key, e.val,
                                              null, null);
                        if ((p.prev = tl) == null)
                            //p作为头节点
                            hd = p;
                        else
                            //链接上一次遍历的节点
                            tl.next = p;
                        tl = p;
                    }
                    //将树节点链接到TreeBin节点
                    setTabAt(tab, index, new TreeBin<K,V>(hd));
                }
            }
        }
    }
}

从上面的代码可以看到，如果table长度小于64时，不会发生链表转换为红黑树，而是会调用tryPresize方法把数组长度扩大到原来的两倍。

下面我们看看tryPresize()：

/**
 * 尝试调整table的大小以适应给定的元素数量
 * 扩容重要方法
 */
private final void tryPresize(int size) {
    //如果尝试扩容的容量超过最大容量，那么无法扩容，直接取MAXIMUM_CAPACITY 
    //如果没有超过最大容量，尝试调整为： 大于当前容量的2次幂大小
    int c = (size >= (MAXIMUM_CAPACITY >>> 1)) ? MAXIMUM_CAPACITY :
        tableSizeFor(size + (size >>> 1) + 1);
    int sc;
    //自旋一直判断
    while ((sc = sizeCtl) >= 0) {
        Node<K,V>[] tab = table; int n;
        //table为空的话，说明尚未初始化，所以先进行初始化
        if (tab == null || (n = tab.length) == 0) {
            n = (sc > c) ? sc : c;
            if (U.compareAndSwapInt(this, SIZECTL, sc, -1)) {
                try {
                    if (table == tab) {
                        @SuppressWarnings("unchecked")
                        //创建一个长度为n的Node<K,V>[]赋值给table
                        Node<K,V>[] nt = (Node<K,V>[])new Node<?,?>[n];
                        table = nt;
                        sc = n - (n >>> 2);
                    }
                } finally {
                    sizeCtl = sc;
                }
            }
        }
        //如果已经被扩容过或者table数组已经超过最大容量，则直接退出循环
        else if (c <= sc || n >= MAXIMUM_CAPACITY)
            break;
        else if (tab == table) {  //进行扩容操作
            //返回一个随机数，标志此次
            int rs = resizeStamp(n);
            if (sc < 0) { //表明此时有别的线程正在进行扩容
                Node<K,V>[] nt;
                // 如果当前线程无法协助进行数据转移, 则退出
                if ((sc >>> RESIZE_STAMP_SHIFT) != rs || sc == rs + 1 ||
                    sc == rs + MAX_RESIZERS || (nt = nextTable) == null ||
                    transferIndex <= 0)
                    break;
                if (U.compareAndSwapInt(this, SIZECTL, sc, sc + 1))
                    //协助数据转移
                    transfer(tab, nt);
            }
            // sc置为负数, 当前线程成为第一个执行数据转移的线程
            else if (U.compareAndSwapInt(this, SIZECTL, sc,
                                         (rs << RESIZE_STAMP_SHIFT) + 2))
                transfer(tab, null);
        }
    }
}

可以看到，协助数据迁移和自身成为第一个进行数据迁移的线程，都是调用的transfer方法来完成：

/**
 * 将每个bin中的节点移动或复制到新表中.
 * 数据迁移的重要方法
 */
private final void transfer(Node<K,V>[] tab, Node<K,V>[] nextTab) {
    int n = tab.length, stride;
    // stride表示数据迁移时，每个线程要负责旧table中的多少个桶的数据迁移
    // 通过cpu的数量
    // 假设： n = table.length = 100,cpu的数量=4, 计算得出的stride = 3 < MIN_TRANSFER_STRIDE=16
    if ((stride = (NCPU > 1) ? (n >>> 3) / NCPU : n) < MIN_TRANSFER_STRIDE)
        //说明最小区间大小就是16
        stride = MIN_TRANSFER_STRIDE; // 细分范围
    if (nextTab == null) {  // 第一次进行扩容
        try {
            @SuppressWarnings("unchecked")
            Node<K,V>[] nt = (Node<K,V>[])new Node<?,?>[n << 1];
            //此处就是通过左移一位，创建一个大小为原先数组大小两倍的数组
            //并且赋值给新数组nextTab 
            nextTab = nt;
        } catch (Throwable ex) {      //处理内存溢出（OOME）的情况
            sizeCtl = Integer.MAX_VALUE;
            return;
        }
        //赋值给扩容后新数组nextTab 
        nextTable = nextTab;
        // [transferIndex-stride, transferIndex-1]表示当前线程要进行数据迁移的桶区间
        // [100-16, 100-1]  ->  [84,99]
        transferIndex = n;
    }
    int nextn = nextTab.length;
    // ForwardingNode结点，当旧table的某个桶中的所有节点都迁移完后，用该节点占据这个桶
    ForwardingNode<K,V> fwd = new ForwardingNode<K,V>(nextTab);
    // 标识一个桶的迁移工作是否完成，advance为true 表示可进行下一个位置的迁移.
    boolean advance = true;
    // 最后一个线程完成数据迁移后，会将该值置为true
    boolean finishing = false;
    // i指当前处理的槽位序号,bound指需要处理的槽位边界
    for (int i = 0, bound = 0;;) {
        Node<K,V> f; int fh;
        // 计算本次处理的桶区间
        // i == transferIndex-1，bound == transferIndex-stride
        while (advance) {
            int nextIndex, nextBound;
            if (--i >= bound || finishing)
                advance = false;
            else if ((nextIndex = transferIndex) <= 0) {
                i = -1;
                advance = false;
            }
            //cas无锁算法设置 transferIndex = transferIndex - stride
            else if (U.compareAndSwapInt
                     (this, TRANSFERINDEX, nextIndex,
                      nextBound = (nextIndex > stride ?
                                   nextIndex - stride : 0))) {
                bound = nextBound;
                i = nextIndex - 1;
                advance = false;
            }
        }
        if (i < 0 || i >= n || i + n >= nextn) {
            int sc;
            //所有桶都完成了数据迁移
            if (finishing) {  
                //清空临时对象nextTable  
                nextTable = null;
                table = nextTab;
                //扩容阈值设置为原来容量的1.5倍  依然相当于现在容量的0.75倍
                sizeCtl = (n << 1) - (n >>> 1);
                return;
            }
            // 利用CAS方法更新这个扩容阈值,扩容线程数减1
            if (U.compareAndSwapInt(this, SIZECTL, sc = sizeCtl, sc - 1)) {
                // 判断当前线程是否是本次扩容中的最后一个线程，如果不是，则直接退出
                if ((sc - 2) != resizeStamp(n) << RESIZE_STAMP_SHIFT)
                    return;
                finishing = advance = true;
                /**
                 * 最后一个线程要重新检查一次旧table中的所有桶，确认是否都被正确迁移到新table
                 */
                i = n; // recheck before commit
            }
        }
        else if ((f = tabAt(tab, i)) == null)
             //对应旧桶中的数据为null,不需要进行迁移，存放ForwardingNode用于占位
            advance = casTabAt(tab, i, null, fwd);
        else if ((fh = f.hash) == MOVED)  //旧桶已经迁移完成
            advance = true; // already processed
        else {  //旧桶未迁移完成
            synchronized (f) {
                if (tabAt(tab, i) == f) {
                    Node<K,V> ln, hn;
                    if (fh >= 0) {  //桶的hash>0，说明是链表迁移
                        int runBit = fh & n;
                        Node<K,V> lastRun = f;
                        //lastRun表示最后一个使fh & n发生变化的节点
                        for (Node<K,V> p = f.next; p != null; p = p.next) {
                            int b = p.hash & n;
                            if (b != runBit) {
                                runBit = b;
                                lastRun = p;
                            }
                        }
                        if (runBit == 0) {
                            ln = lastRun;
                            hn = null;
                        }
                        else {
                            hn = lastRun;
                            ln = null;
                        }
                        
                        //可见循环到lastRun为止， 以lastRun所指向的节点为分界
                        for (Node<K,V> p = f; p != lastRun; p = p.next) {
                            //将链表拆成2个子链表ln、hn
                            int ph = p.hash; K pk = p.key; V pv = p.val;
                            if ((ph & n) == 0)
                                ln = new Node<K,V>(ph, pk, pv, ln);
                            else
                                hn = new Node<K,V>(ph, pk, pv, hn);
                        }
                        //p.hash & n等于0的节点构成一个链表ln,这些节点在新数组中的位置不变
                        setTabAt(nextTab, i, ln);
                        //p.hash & n等于1的节点构成一个链表hn,这些节点在新数组中的位置为i+n
                        setTabAt(nextTab, i + n, hn);
                        //放置ForwardingNode用于占位
                        setTabAt(tab, i, fwd);
                        advance = true;
                    }
                    else if (f instanceof TreeBin) {  //红黑树迁移
                        TreeBin<K,V> t = (TreeBin<K,V>)f;
                        TreeNode<K,V> lo = null, loTail = null;
                        TreeNode<K,V> hi = null, hiTail = null;
                        int lc = 0, hc = 0;
                        for (Node<K,V> e = t.first; e != null; e = e.next) {
                            int h = e.hash;
                            TreeNode<K,V> p = new TreeNode<K,V>
                                (h, e.key, e.val, null, null);
                            if ((h & n) == 0) {
                                if ((p.prev = loTail) == null)
                                    lo = p;
                                else
                                    loTail.next = p;
                                loTail = p;
                                ++lc;
                            }
                            else {
                                if ((p.prev = hiTail) == null)
                                    hi = p;
                                else
                                    hiTail.next = p;
                                hiTail = p;
                                ++hc;
                            }
                        }
                        // 判断是否需要进行 红黑树 <-> 链表 的转换
                        ln = (lc <= UNTREEIFY_THRESHOLD) ? untreeify(lo) :
                            (hc != 0) ? new TreeBin<K,V>(lo) : t;
                        hn = (hc <= UNTREEIFY_THRESHOLD) ? untreeify(hi) :
                            (lc != 0) ? new TreeBin<K,V>(hi) : t;
                        setTabAt(nextTab, i, ln);
                        setTabAt(nextTab, i + n, hn);
                        setTabAt(tab, i, fwd); 
                        advance = true;
                    }
                }
            }
        }
    }
}

扩容的大体流程：

新数组的长度是原来的2倍；
根据不同位置的元素的结构有不同的方式；
不管原来是链表结构还是树型结构，扩容以后都变成两部分，一部分是hash&n为0的，另一部分是hash&n不为0的，其中n为原数组的长度；
对于那些hash&n==0的结点，它们在新数组中的位置保持不变，也就是说它们原先在旧数组中是什么位置，现在在新数组中还是什么位置；
对于那些hash&n != 0的节点，它们在新数组中的位置相比于之前在旧数组中的位置是向后移动了n；
每个位置在迁移的时候都加锁了；
扩容后，原来在旧数组中在相同位置的结点在新数组中未必还在相同的位置；
扩容后，链表没有倒置；
由于迁移到新数组中时，会将原先一棵树分成两部分（跟链表一样），所以分出来的树中如果结点数小于或等于6，则转成链表；

三、总结

通过两篇ConcurrentHashMap相关的文章，我们对ConcurrentHashMap有了大概理解，ConcurrentHashMap的源码相对比较复杂，其中涉及红黑树那一块也是很复杂，笔者暂且先略过这一块内容，后面再回来琢磨琢磨。以上仅是笔者的学习上的一些总结，如有不对之处，还请大家帮忙指正。

参考资料：

https://www.cnblogs.com/cjsblog/p/10017911.html

https://blog.csdn.net/programmer_at/article/details/79715177

https://www.jianshu.com/p/487d00afe6ca