Java多线程进阶（16）—— J.U.C之atomic框架：LongAdder

原创于 2024-02-20 08:41:37 发布 · 712 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#java #java并发

java并发专栏收录该内容

66 篇文章

订阅专栏

作者简介：大家好，我是smart哥，前中兴通讯、美团架构师，现某互联网公司CTO

联系qq：184480602，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬

学习必须往深处挖，挖的越深，基础越扎实！

阶段1、深入多线程

 阶段2、深入多线程设计模式

 阶段3、深入juc源码解析

阶段4、深入jdk其余源码解析

阶段5、深入jvm源码解析

码哥源码部分

码哥讲源码-原理源码篇【2024年最新大厂关于线程池使用的场景题】

码哥讲源码【炸雷啦！炸雷啦！黄光头他终于跑路啦！】

码哥讲源码-【jvm课程前置知识及c/c++调试环境搭建】

码哥讲源码-原理源码篇【揭秘join方法的唤醒本质上决定于jvm的底层析构函数】

码哥源码-原理源码篇【Doug Lea为什么要将成员变量赋值给局部变量后再操作？】

码哥讲源码【你水不是你的错,但是你胡说八道就是你不对了！】

码哥讲源码【谁再说Spring不支持多线程事务，你给我抽他！】

终结B站没人能讲清楚红黑树的历史，不服等你来踢馆！

打脸系列【020-3小时讲解MESI协议和volatile之间的关系，那些将x86下的验证结果当作最终结果的水货们请闭嘴】

一、LongAdder简介

JDK1.8时，java.util.concurrent.atomic包中提供了一个新的原子类：LongAdder。
根据Oracle官方文档的介绍，LongAdder在高并发的场景下会比它的前辈————AtomicLong 具有更好的性能，代价是消耗更多的内存空间：

那么，问题来了：

为什么要引入LongAdder？ AtomicLong在高并发的场景下有什么问题吗？如果低并发环境下，LongAdder和AtomicLong性能差不多，那LongAdder是否就可以替代AtomicLong了？

1.1 为什么要引入LongAdder？

我们知道， AtomicLong 是利用了底层的CAS操作来提供并发性的，比如 addAndGet 方法：

上述方法调用了 Unsafe 类的 getAndAddLong 方法，该方法是个 native 方法，它的逻辑是采用自旋的方式不断更新目标值，直到更新成功。

在并发量较低的环境下，线程冲突的概率比较小，自旋的次数不会很多。但是，高并发环境下，N个线程同时进行自旋操作，会出现大量失败并不断自旋的情况，此时 AtomicLong 的自旋会成为瓶颈。

这就是 LongAdder 引入的初衷——解决高并发环境下 AtomicLong 的自旋瓶颈问题。

1.2 LongAdder快在哪里？

既然说到 LongAdder 可以显著提升高并发环境下的性能，那么它是如何做到的？这里先简单的说下 LongAdder 的思路，第二部分会详述 LongAdder 的原理。

我们知道， AtomicLong 中有个内部变量 value 保存着实际的long值，所有的操作都是针对该变量进行。也就是说，高并发环境下，value变量其实是一个热点，也就是N个线程竞争一个热点。

LongAdder 的基本思路就是 分散热点 ，将value值分散到一个数组中，不同线程会命中到数组的不同槽中，各个线程只对自己槽中的那个值进行CAS操作，这样热点就被分散了，冲突的概率就小很多。如果要获取真正的long值，只要将各个槽中的变量值累加返回。

这种做法有没有似曾相识的感觉？没错，[ConcurrentHashMap][1]中的“分段锁”其实就是类似的思路。

1.3 LongAdder能否替代AtomicLong？

回答这个问题之前，我们先来看下 LongAdder 提供的API：

可以看到， LongAdder 提供的API和 AtomicLong 比较接近，两者都能以原子的方式对long型变量进行增减。

但是 AtomicLong 提供的功能其实更丰富，尤其是 addAndGet 、 decrementAndGet 、 compareAndSet 这些方法。

addAndGet 、 decrementAndGet 除了单纯的做自增自减外，还可以立即获取增减后的值，而 LongAdder 则需要做同步控制才能精确获取增减后的值。如果业务需求需要精确的控制计数，做计数比较， AtomicLong 也更合适。

另外，从空间方面考虑， LongAdder 其实是一种“空间换时间”的思想，从这一点来讲 AtomicLong 更适合。当然，如果你一定要跟我杠现代主机的内存对于这点消耗根本不算什么，那我也办法。

总之，低并发、一般的业务场景下AtomicLong是足够了。如果并发量很多，存在大量写多读少的情况，那LongAdder可能更合适。适合的才是最好的，如果真出现了需要考虑到底用AtomicLong好还是LongAdder的业务场景，那么这样的讨论是没有意义的，因为这种情况下要么进行性能测试，以准确评估在当前业务场景下两者的性能，要么换个思路寻求其它解决方案。

最后，给出国外一位博主对LongAdder和AtomicLong的性能评测，以供参考：Java 8 Performance Improvements: LongAdder vs AtomicLong | Palomino Labs Blog

二、LongAdder原理

之前说了， AtomicLong 是多个线程针对单个热点值value进行原子操作。而 LongAdder 是每个线程拥有自己的槽，各个线程一般只对自己槽中的那个值进行CAS操作。

比如有三个ThreadA、ThreadB、ThreadC，每个线程对value增加10。

对于 AtomicLong ，最终结果的计算始终是下面这个形式：
$$
value = 10 + 10 + 10 = 30
$$
但是对于 LongAdder 来说，内部有一个base变量，一个Cell[]数组。
base变量：非竞态条件下，直接累加到该变量上
Cell[]数组：竞态条件下，累加个各个线程自己的槽Cell[i]中

最终结果的计算是下面这个形式：
$$
value = base + \sum_{i=0}^nCell[i]
$$

2.1 LongAdder的内部结构

LongAdder 只有一个空构造器，其本身也没有什么特殊的地方，所有复杂的逻辑都在它的父类 Striped64 中。

来看下 Striped64 的内部结构，这个类实现一些核心操作，处理64位数据。
Striped64 只有一个空构造器，初始化时，通过Unsafe获取到类字段的偏移量，以便后续CAS操作：

上面有个比较特殊的字段是threadLocalRandomProbe，可以把它看成是线程的hash值。这个后面我们会讲到。

定义了一个内部Cell类，这就是我们之前所说的槽，每个Cell对象存有一个value值，可以通过 Unsafe 来CAS操作它的值：

其它的字段：
可以看到 Cell[] 就是之前提到的槽数组， base 就是非并发条件下的基数累计值。

2.2 LongAdder的核心方法

还是通过例子来看：
假设现在有一个 LongAdder 对象la，四个线程A、B、C、D同时对la进行累加操作。

    LongAdder la = new LongAdder();
    la.add(10);

① ThreadA调用add方法（假设此时没有并发）：

初始时Cell[]为null，base为0。所以ThreadA会调用 casBase 方法（定义在 Striped64 中），因为没有并发，CAS操作成功将base变为10：

可以看到，如果线程A、B、C、D线性执行，那 casBase 永远不会失败，也就永远不会进入到 base 方法的if块中，所有的值都会累积到 base 中。
那么，如果任意线程有并发冲突，导致 caseBase 失败呢？

失败就会进入if方法体：

这个方法体会先再次判断 Cell[] 槽数组有没初始化过，如果初始化过了，以后所有的CAS操作都只针对槽中的Cell；否则，进入 longAccumulate 方法。

整个 add 方法的逻辑如下图：

可以看到，只有从未出现过并发冲突的时候，base基数才会使用到，一旦出现了并发冲突，之后所有的操作都只针对Cell[]数组中的单元Cell。
如果Cell[]数组未初始化，会调用父类的longAccumelate去初始化Cell[]，如果Cell[]已经初始化但是冲突发生在Cell单元内，则也调用父类的longAccumelate，此时可能就需要对Cell[]扩容了。

这也是LongAdder设计的精妙之处：尽量减少热点冲突，不到最后万不得已，尽量将CAS操作延迟。