Caffeine - Performance - Design

最新推荐文章于 2022-11-26 22:08:35 发布

阿湯哥

最新推荐文章于 2022-11-26 22:08:35 发布

阅读量191

点赞数

分类专栏： Caffeine

原文链接：https://github.com/ben-manes/caffeine/wiki/Design

版权

Caffeine 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

Caffeine - Performance - Design

- 设计
参考

设计

访问有序队列

哈希表中的所有条目都有序排列在双向链表中。一个条目可以在O(1)时间复杂度内从HashMap中获取，并且获取其相邻条目。

访问顺序在条目被创建、更新或读取时定义。最近最少使用的条目排在表头，最近最多使用的条目排在表尾。这样可以为基于容量的剔除（maximumSize）和基于空闲时间的剔除（expireAfterAccess）提供支持。挑战是每一个访问都需要变更列表，而列表本身无法实现高效并发。

写有序队列

写入顺序是在条目被创建和更新时定义的。与访问有序队列类似，写有序队列操作的时间复杂度也为O(1)。这个队列被用来实现基于存活时间的过期（expireAfterWrite）。

分层的计时器轮

一个时间感知优先队列，使用哈希和双向链表在时间复杂度O(1)内执行操作。这个队列被用来实现可变的过期（expireAfter(Expiry)）。

读缓冲区

典型的缓存实现会在每一个操作上加锁以实现访问队列中条目的重新排序。一个替代选择是将每一个重新排序操作保存在一个缓冲区并且批量的应用变化。这可以被视为页面替换策略的预写日志。当缓冲区写满后会尝试获取锁并执行挂起操作，但是如果缓冲区已被保存，则线程可以立即返回。

读缓冲区是通过带状环形缓冲区实现的。条带用来减少竞争，通过线程特定的哈希选择条带。环形缓冲是一个固定大小的数组，这样会非常高效并且最大程度减少了垃圾回收开销。条带的数量可以基于竞争检测算法动态增长。

写缓冲区

与读缓冲区类似，这个缓冲区用来重演写事件。读缓冲区是允许事件丢失的，因为这些事件是仅用来优化剔除策略的命中率。写操作不能被丢失，因此它必须采用高效的有界队列实现。由于每次填充时都要事先清空写缓存，它通常保持为空或很小。

写缓冲实现为一个可扩展的环形数组，它可以调整大小直到一个最大值。当调整大小时，会分配产生一个新的数组。之前的数组包含一个前供消费者遍历的转发连接，然后允许释放旧的数组。通过使用这种分块机制，缓冲区的初始大小较小，读写的成本较低，并且产生的垃圾较少。当缓冲区已满并且无法增长时，生产者会在短时间内持续轮询重试并尝试调度维度工作。这样允许消费者线程通过重演剔除策略上的写操作，优先耗尽缓存。

锁摊销

传统的缓存通过对每个操作加锁执行少量的工作，Caffeine会批处理工作并且将成本摊销到多个线程中。这样对锁定的工作成本进行摊销，而不是将竞争锁作为成本。成本摊销委派给已配置的执行器执行，如果任务被拒绝或使用了调用者运行策略时，它有可能被用户线程执行。

批处理的一个优点是，基于锁的排他性，缓冲区在给定的时间只能被单个线程耗尽。这允许使用更有效的基于多生产者/单消费者的缓冲区的实现。通过利用CPU缓存效率，它可以更好地与硬件特性保持一致。

条目状态转换

当缓存不被排他锁保护时，一个挑战是操作可能以错误的顺序记录和重演。因为竞争，创建-读取-更新-删除序列可能无法以同样的顺序存储到缓冲区中。如果这样做将需要粗粒度锁，而这会降低性能。

与并发的数据结构中的典型情况一样， Caffeine使用原子状态转换解决这个难题。一个条目有存活、退休、死亡三个状态。存活状态意味着条目在哈希表和访问/写队列中同时存在。当条目从哈希表移除时被标记为退休并且需要从队列中移除。当从队列移除后，条目被视为死亡，并且可以进行垃圾回收。

宽松的读和写？

Caffeine格外小心，以使每一个不稳定操作都正确执行。不同于从语言的易失性读写思考的方式，内存屏障提供了一个面向硬件的视图。通过了解发射了哪些屏障以及对硬件和数据可见性的影响，有可能实现更好性能。

当在锁保护下进行排他访问时，由于锁获取的内存屏障提供了数据可见性，Caffeine可以使用宽松读取。当无论如何都会发生数据争用时，这也是可以接受的，如检查当条目是否在读取时过期来模拟缓存丢失。

Caffeine以与读取类似的方式使用宽松写。如果条目在锁保护下进行排他写，那么写操作会背负解锁时发出的内存屏障。有时候也倾向于写偏序，例如在读取条目时更新访问时间戳。

剔除策略

Caffeine使用Window TinyLfu策略提供接近最优的命中率。访问队列被分为两空间：入场窗口和主空间，如果被TinyLfu策略接收，则从入场窗口转移到主空间。 TinyLfu估计窗口受害者和主空间受害者的访问频率，选择保留历史使用率最高的条目。频率计数保存在一个 4 位 CountMinSketch中，每个条目需要8个字节才能精确。这种配置可以基于O(1)的时间复杂度进行基于频率和新近度的剔除，并且占用较小的内存。