缓存一致性问题解决方案

蓝绿色~菠菜

已于 2023-12-12 11:47:00 修改

阅读量1.3w

点赞数 48

分类专栏： Web MQ、缓存、Redis、celery异步任务文章标签： redis 缓存

于 2022-04-07 17:25:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bocai_xiaodaidai/article/details/124010396

版权

Web 同时被 2 个专栏收录

29 篇文章 3 订阅

订阅专栏

MQ、缓存、Redis、celery异步任务

20 篇文章 2 订阅

订阅专栏

本文探讨了四种缓存更新策略：先写缓存再写数据库、先写数据库再写缓存、先删缓存再写数据库以及先写数据库再删缓存。分析了每种策略的优缺点，特别是在高并发和一致性要求下的表现。强调了缓存一致性的重要性，并提出了解决方案，如延迟双删、设置过期时间和使用消息队列。总结指出，删除缓存通常优于更新，且应根据业务需求选择合适的策略。

摘要由CSDN通过智能技术生成

通常情况下，我们使用缓存的主要目的是为了提升查询的性能。大多数情况下，是这样使用缓存的：

当数据库有数据更新时，在很长的一段时间内（决定于缓存的过期时间），用户请求从缓存中获取到的都可能是旧值，而非数据库的最新值。那么，该如何更新缓存呢？目前有以下四种解决方案：

先写缓存，再写数据库（差）
先写数据库，再写缓存（一般）
先删缓存，再写数据库（能接受）
先写数据库，再删缓存（比较优秀）

讨论四种方案前先统一两个认知，以便更好理解四种方案：

缓存一致性问题没有绝对可靠的方案，我们只能让两者尽量接近，但无论如何也不能百分百达到一致性效果。
缓存和数据库，无论先处理谁，只要后者有延迟/失败，都会导致不一致的情况，这也正是缓存不一致的根本原因所在。所有解决方案和讨论都是围绕这一点来进行的。

方案一：先写缓存，再写数据库

缺点：如果刚写完缓存，突然网络出现了异常，导致写数据库失败了。这样缓存中的数据就变成脏数据，这个问题非常严重，也是最差的一种解决方案。

方案二：先写数据库，再写缓存

缺点一：问题又来了，写数据库成功，但写缓存失败了，依然会造成缓存脏数据的问题。但写缓存失败比写数据库失败的概率要小很多了(因为数据库可能有加锁、外键约束、超时等机制限制)，所以此方案要比第一种方案好一点。

如果对接口性能要求不高，还可以把写数据库和写缓存放到一个事务中，写缓存失败就回滚数据库。

缺点二：然而高并发场景下，还会有个棘手问题：

请求a先过来，刚写完了数据库。但由于网络原因，卡顿了一下，还没来得及写缓存。
这时候请求b过来了，先写了数据库。
接下来，请求b顺利写了缓存。
此时，请求a卡顿结束，也写了缓存。

很显然，在这个过程当中，请求b在缓存中的新数据，被请求a的旧数据覆盖了。

也就是说：在高并发场景中，如果多个线程同时执行先写数据库，再写缓存的操作，可能会出现数据库是新值，而缓存中是旧值，两边数据不一致的情况。

缺点三：浪费系统资源

写的缓存的内容，并不是简单的数据，而是要经过非常复杂的计算或者查询筛选得出的结果，这样每写一次缓存都要计算一次，这是非常浪费系统资源的，尤其对那些写多读少的业务场景，更是雪上加霜。

方案三：先删缓存，再写数据库

既然更新缓存会有浪费系统资源等问题，那就直接删除缓存来代替更新缓存呢？

方案一：

嗯，看起来还不错。即使写数据库失败了，下个请求也会重新触发写缓存操作，基本上避免更新缓存的所有弊端，然而也不是十全十美。

缺点：

请求d先过来，把缓存删除了。但由于网络原因，卡顿了一下，还没来得及写数据库。
这时请求c过来了，先查缓存发现没数据，再查数据库，有数据，但是旧值。
请求c将数据库中的旧值，更新到缓存中。
此时，请求d卡顿结束，把新值写入数据库。

这种极端情况下依然会导致写入的缓存为旧值。

方案二：延迟双删

为了避免方案1的避免，写完数据库后，再删除一次。

该方案有个非常关键的地方是：第二次删除缓存，并非立马就删，而是要在一定的时间间隔之后。

sleep的时间要对业务读写缓存的时间做出评估，sleep时间大于读写缓存的时间即可。

那么，为什么一定要间隔一段时间之后，才能删除缓存呢？

请求d卡顿结束，把新值写入数据库后，请求c将数据库中的旧值，更新到缓存中。此时，如果请求d删除太快，在请求c将数据库中的旧值更新到缓存之前，就已经把缓存删除了，这次删除就没任何意义。必须要在请求c更新缓存之后，再删除缓存，才能把旧值及时删除了。

方案四：先写数据库，再删缓存

请求e先写数据库，由于网络原因卡顿了一下，没有来得及删除缓存。
请求f查询缓存，发现缓存中有数据，直接返回该数据。
请求e删除缓存。

这种情况下，只会影响f或类似f的少数请求读了一次脏数据，看起来好多了。

但如果是读数据请求先过来呢？

请求f查询缓存，发现缓存中有数据，直接返回该数据。
请求e先写数据库。
请求e删除缓存。

这种情况看起来也没问题。

但就怕一种情况：缓存失效。

缓存自动失效。
请求f查询缓存，发缓存中没有数据，查询数据库的旧值，但由于网络原因卡顿了，没有来得及更新缓存。
请求e先写数据库，接着删除了缓存。
请求f更新旧值到缓存中。

这时，缓存和数据库的数据同样出现不一致的情况了。但这种情况还是比较少的，需要同时满足以下条件：

缓存刚好自动失效。
请求f从数据库查出旧值，更新缓存的耗时，比请求e写数据库，并且删除缓存的耗时还长。

出现这种情况的概率已经极低了，除非是查询比写入还慢。说实话如果对于这种极低概率的脏数据都不能容忍，建议不需要使用缓存了。毕竟现在大部分都是读写分离，主从还存在延时呢。这种要强一致性的建议走mysql。对msql进行扩容比如分库分表，读写分离等等。

删除缓存失败怎么办？

其实先写数据库，再删缓存的方案，跟缓存双删的方案一样，有一个共同的风险点，即：如果缓存删除失败了怎么办？

方案一：设置过期时间

缓存设置一个过期时间，比如5分钟。当然这种方案只适合数据更新不是太频繁的业务。

方案二：同步重试

在接口中判断是否删除成功，如果失败就重试，直到成功或超过最大重试次数为止，返回数据。当然，这种方案的缺点就是可能影响接口性能。

方案三：消息队列

将删除缓存任务写入mq等消息中间件中，在mq的consumer中处理。但问题也很多：

引入消息中间件之后，问题更复杂了，对业务代码有一定侵入性、消息丢失怎么办
消息本身的延迟也会带来短暂的不一致性，不过这个延迟相对来说还是可以接受的

方案四：订阅mysql的binlog

我们可以借助监听binlog的消息队列来做删除缓存的操作。这样做的好处是，删除动作无需侵入到业务代码，消息中间件帮你做了解耦，同时，中间件的这个东西本身就保证了高可用。

总结

首先，要明确一点，缓存删除比更新效果更好。为什么呢？

举个例子：如果数据库1小时内更新了1000次，那么缓存也要更新1000次，但是这个缓存可能只在最后一次更新后被读取了1次，那么前999次的更新有必要吗？

反过来，如果是删除的话，就算数据库更新了1000次，那么也只是做了1次缓存删除（删除前判断key是否存在），只有当缓存真正被读取的时候才去数据库加载

删除缓存有两种方式：

先删除缓存，再更新数据库。解决方案是使用延迟双删。
先更新数据库，再删除缓存。解决方案是设置过期时间/消息队列/监听binlog同步，引入消息队列会带来更多的问题，对业务代码有一定侵入性，并不推荐直接使用。

针对缓存一致性要求不是很高的场景，那么只通过设置超时时间就可以了。

蓝绿色~菠菜

关注

48
点赞
踩
239

收藏

觉得还不错? 一键收藏
8
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

蓝绿色~菠菜 CSDN认证博客专家 CSDN认证企业博客

码龄6年

325: 原创

1万+: 周排名

2716: 总排名

128万+: 访问

: 等级

1万+: 积分

1968: 粉丝

927: 获赞

229: 评论

2941: 收藏

私信

关注

热门文章

分类专栏

MQ、缓存、Redis、celery异步任务 20篇
压力/性能测试 3篇
DevOps 7篇
Web 29篇
k8s 1篇
设计模式、开发原则 22篇
Git 8篇
Mysql 18篇
微服务 9篇
数据结构与算法 5篇
GO 4篇
系统架构 2篇
开发模式 3篇
笔记
Nginx 5篇
ES 1篇
Vue 7篇
Xadmin 17篇
HTTP通信 4篇
bootstrap 1篇
Odoo 2篇
Flask 1篇
Django 74篇
Docker 15篇
Python 45篇
前端 27篇
杂 11篇
Linux 5篇

最新评论

基于Django实现多租户项目连接不同数据库
蓝绿色~菠菜: 修改settings的DATABASES补充新租户数据库信息。
关于用docker启动celery来执行异步任务时任务丢失问题
YYHH0825_0921: 在docker stop命令执行的时候，会先向容器中PID为1的进程(main process)发送系统信号SIGTERM，然后等待容器中的应用程序终止执行，如果等待时间达到设定的超时时间，如默认的10秒，会继续发送SIGKILL的系统信号强行kill掉进程。在容器中的应用程序，可以选择忽略和不处理SIGTERM信号，不过一旦达到超时时间，程序就会被系统强行kill掉。
Celery Task中一些有用的回调函数
北风之神c: 总结的很全面，写得赞，博主用心了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字。所以网上的celery博客教程虽然很多，但是并不能学会使用，因为要运行起来需要以下6个方面都掌握好，博客文字很难表达清楚或者没有写全面以下6个方面。 celery消费任务不执行或者报错NotRegistered，与很多方面有关系，如果要别人排错，至少要发以下6方面的截图，因为与一下6点关系很大。 1)整个项目目录结构, 2）@task入参 ,3）celery的配置，4）celery的配置 include ,5）cmd命令行启动参数 --queues= 的值,6）用户在启动cmd命令行时候，用户所在的文件夹。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c1.html ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等20个方面全方位超过celery。发布性能提高1000%，消费性能提高2000%。 python万能分布式函数调度框架funboost支持python所有类型的并发模式和一切知名消息队列中间件，python函数加速器，只需要一行代码调度任意函数，框架包罗万象,万能编程功能宝典，一统编程思维，与业务不绑定，适用范围广。 pip install funboost
基于Django实现多租户项目连接不同数据库
Smallcaff: 比如添加了新的租户，该怎么处理
傅里叶变换
白驹୧⍤⃝�: 出自《编程之法：面试和算法心得》章节：从头到尾彻底理解傅里叶变换算法、上 url：https://www.bookstack.cn/read/The-Art-Of-Programming-By-July/ebook-zh-%E5%82%85%E9%87%8C%E5%8F%B6%E5%8F%98%E6%8D%A2%E7%AE%97%E6%B3%95%E3%80%81%E4%B8%8A.md

最新文章

目录

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。