一般常用的缓存方案有两种:
第一种
- 读的时候,先读缓存,缓存没有的话,读数据库,取出数据后放入缓存,同时返回响应。
- 更新的时候,先删除缓存,在更新数据库。
第二种
- 读的时候,先读缓存,缓存没有的话,读数据库,取出数据后放入缓存,同时返回响应。
- 更新的时候,先更新数据库,再删除缓存。
第二种是Cache Aside Pattern的原本思路,用的比较多,第一种也有在用。为什么会造成这两种分歧勒?原因在于:
- 第一种方案引入了缓存-数据库双写不一致的问题,即读数据(写缓存)与修改数据(写数据库)并发的情况下,若修改数据数据库事务还没提交,但是已经把缓存从redis中删除,此时来了个读请求,会把旧的数据刷到缓存里面,这样就导致了缓存中的数据直到下一次修改数据库之前肯定是与数据库不一致的。
- 第二种方案引入了另外一个问题,在提交事务之后,若更新缓存失败,也会导致缓存数据库不一致。
facebook公司用的是第二种方案,因为在高并发的情况下,第一种方案带来的影响肯定比第二种方案要大。因为:
- 第一:导致更新缓存失败的情况概率是很小的,就算发生了,那么问题就大了,比起解决缓存和数据库不一致,更应该加强Redis架构的可用性。
- 第二,高并发情况下第一种情况发生的概率是很高的。、
其实个人觉得在没有读写分离的情况下就用第二种方案就够了,引入redis主从架构解决redis可用性就完了,另外,我们可以为缓存设置过期时间,减小第二种方案极端情况下数据库缓存不同步造成的影响。
这是不是说第一种方案完全不可以用勒,也不是,在保证双写串行化的情况下,我们也能够使用第一种方案,但这种方式会牺牲一定的性能,如通过内存队列的形式。比如:
读请求没读到缓存就往内存队列丢一个消息,去更新缓存,同时自己开始轮询缓存。针对写请求,也把数据库更新的操作发送到队列里面去。然后后台线程轮询获取内存队列元素,消费信息。用内存队列的方式将更新缓存和删除缓存的操作给串行化起来。这里可以优化的是
- 第一: 后台内存队列可以多个,通过业务IdHash分发到不同的内存队列当中,只需要保证同一业务id的双写是串行化的就行。
- 第二:为了避免无意义的缓存更新消息连续,可以维护一个map,键为产品id,值为一个Boolean值,boolean值标记的是否需要将更新缓存操作推到对队列中(当消费删缓存消息置为ture,当消费写缓存消息置为false)。但这里需要慎重,根据业务量来,如果有100万条数据,这个map的大小会占用到15MB。
另外也可以粗暴的加锁,对读和写加锁串行化,方案实现起来较简单一点。
如果引入了读写分离
但是如果引入了读写分离怎么办勒,由于主从同步延迟,如果采取上面的两种方案,在极端情况下,有可能导致读请求写入缓存中的可能是旧数据。这里根据网上的资料纸上谈兵分析一下,如果严格要求这种情况下也要保住缓存数据库一致性的话,只有通过引入阿里的canel组件,实现针对从库binlog日志的消费逻辑,等到从库更新之后再去删除缓存了。
总结
总结一下,在读写分离的情况下,直接使用上面的方案二就可。但如果引入了读写分离,可以采用上面所述的根据从库的Binlog日志来异步更新缓存,但没有具体实操,可能代价有点大,如果没有严格要求缓存数据库一致性,个人觉得可以不采用,实在不行直接放弃走缓存。