缓存面试五连击(上篇)

互联网公司必问这个问题,要是一个连缓存都不太清楚,那确实比较尴尬。

只要问到缓存,上来第一个问题,肯定是先问问你项目哪里用了缓存?为啥要用?不用行不行?如果用了以后可能会有什么不良的后果?

这就是看看你对缓存这个东西背后有没有思考,如果你就是傻乎乎的瞎用,没法给面试官一个合理的解答,那面试官对你印象肯定不太好,觉得你平时思考太少。

 

随着互联网系统发展的逐步完善,提高系统的qps(每秒查询率),目前的绝大部分系统都增加了缓存机制从而避免请求过多的直接与数据库操作从而造成系统瓶颈,极大的提升了用户体验和系统稳定性。缓存可以说是无处不在,比如 PC 电脑中的内存、CPU 中的二级缓存、HTTP 协议中的缓存控制、CDN 加速技术都是使用了缓存的思想来解决性能问题。 用缓存,主要有两个用途:高性能,高并发

 

 

缓存在不同的场景下,作用是不一样的具体举例说明:

操作系统磁盘缓存 ——> 减少磁盘机械操作。

数据库缓存——>减少文件系统IO。

应用程序缓存——>减少对数据库的查询。

Web服务器缓存——>减少应用服务器请求。

CDN缓存——>减少静态资源请求。

客户端浏览器缓存——>减少对网站的访问。

缓存的类型包含客户端缓存,反向代理缓存,CDN缓存,对象缓存和数据库缓存,咱们看一下缓存知识图谱

在使用缓存之前,需要确认你的项目是否真的需要缓存。使用缓存会引入的一定的技术复杂度,后面也将会一一介绍这些复杂度。一般来说从两个方面来个是否需要使用缓存:

CPU占用:如果你有某些应用需要消耗大量的cpu去计算,比如正则表达式,如果你使用正则表达式比较频繁,而其又占用了很多CPU的话,那你就应该使用缓存将正则表达式的结果给缓存下来。

数据库IO占用:如果你发现你的数据库连接池比较空闲,那么不应该用缓存。但是如果数据库连接池比较繁忙,甚至经常报出连接不够的报警,那么是时候应该考虑缓存了。曾经有个服务,被很多其他服务调用,其他时间都还好,但是在每天早上10点的时候总是会报出数据库连接池连接不够的报警,经过排查,发现有几个服务选择了在10点做定时任务,大量的请求打过来,DB连接池不够,从而报出连接池不够的报警。这个时候有几个选择,我们可以通过扩容机器来解决,也可以通过增加数据库连接池来解决,但是没有必要增加这些成本,因为只有在10点的时候才会出现这个问题。后来引入了缓存,不仅解决了这个问题,而且还增加了读的性能。

如果并没有上述两个问题,那么你不必为了增加缓存而缓存。

如果能合理的利用缓存,整个系统的性能将会得到大大的提高,Web开发尤其如此。一般高并发大访问量的应用,主要压力都在服务器端,所以服务器端的性能至关重要,缓存的使用,很多时候是有决定性影响的。

 在这里明确一下我所说的缓存,它不是一个软件系统,不是一段程序,也不是一个存储空间,而是一种处理方式。缓存的目的是为了提高程序性能,减少程序的执行时间。当然缓存也有相应的代价,一般是牺牲空间换时间。咱们看一下缓存有哪些特点呢

1. 读写性能很好

2. 支持数据持久化,支持AOF和RDB方式的持久化

3. 支持主从复制,主机会自动将数据同步到从机,实现读写分离

4. 数据结构丰富

 

 

使用缓存的优势在哪里呢?

减少冗余的数据传输 节省流量

缓解了网络瓶颈的问题 不需高带宽即可快速加载页面

降低了对原始服务器的要求 服务器更快响应 避免过载

降低了距离时延 服务器较远 降低传输时间

 

其结构由两部分内容组成:

Hash table:用来存储数据;

LRU:用来维护数据项的新旧信息;

一个hash表通常由若干个bucket组成,每一个bucket中会存储若干条被散列至此的数据项。当hash表进行resize时,需要将桶中的数据读出,并且重新散列至另外一个桶中。假设这个过程不是一个原子操作,那么会导致此刻其他的读、写请求的结果发生异常,甚至导致数据丢失的情况发生。

该哈希表的散列与普通的哈希表一致,都是借助散列函数,将用户需要查找、更改的数据散列到某一个哈希桶中,并在哈希桶中进行操作。

既然我们引入了缓存,那肯定是想更多的请求尽量落在缓存上,也就是说我们必须要关注缓存命中率,命中率越高就代表我们的后端存储就越不容易被拖垮成为性瓶颈,如果我们的缓存命中率下降一定要看是什么原因,因为对于高并发请求哪怕下降1% 都是灾难。

比如,现在的系统QPS10000,每次请求会查询10次的缓存,现在命中率突然下降了1%,也就是我有 10000 * 10 * 1% =1000次的请求落到了我们后端数据库MySql上了。这就代表了MySQL数据库面临突然增加的1000的并发,这是很危险的,基本普通机器mysql也只能抗大概2000的并发。所以,缓存命中率是要我们关注的。

缓存的关键指标——缓存命中率

 

命中:可以直接通过缓存获取到需要的数据。

不命中:无法直接通过缓存获取到想要的数据,需要再次查询数据库或者执行其它的操作。原因可能是由于缓存中根本不存在,或者缓存已经过期。

通常来讲,缓存的命中率越高则表示使用缓存的收益越高,应用的性能越好(响应时间越短、吞吐量越高),抗并发的能力越强。

由此可见,在高并发的互联网系统中,缓存的命中率是至关重要的指标。

 

如何计算缓存的命中率呢? 缓存命中次数与总读取次数的比率,比如说十次查询九次都能够得到缓存的正确结果,命中率就是 90%

影响缓存命中率的几个因素,

下面分析下影响缓存命中率的几个因素。

业务场景和业务需求

缓存适合读多写少的业务场景,反之,使用缓存的意义其实并不大,命中率会很低。

业务需求决定了对时效性的要求,直接影响到缓存的过期时间和更新策略。时效性要求越低,就越适合缓存。在相同key和相同请求数的情况下,缓存时间越长,命中率会越高。

互联网应用的大多数业务场景下都是很适合使用缓存的。

2.缓存的设计(粒度和策略)

通常情况下,缓存的粒度越小,命中率会越高。举个实际的例子说明:

当缓存单个对象的时候(例如:单个用户信息),只有当该对象对应的数据发生变化时,我们才需要更新缓存或者让移除缓存。而当缓存一个集合的时候(例如:所有用户数据),其中任何一个对象对应的数据发生变化时,都需要更新或移除缓存。

缓存的更新/过期策略也直接影响到缓存的命中率。当数据发生变化时,直接更新缓存的值会比移除缓存(或者让缓存过期)的命中率更高,当然,系统复杂度也会更高。

3.缓存容量

缓存的容量有限,则容易引起缓存失效和被淘汰(目前多数的缓存框架或中间件都采用了LRU算法)。同时,缓存的技术选型也是至关重要的,比如采用应用内置的本地缓存就比较容易出现单机瓶颈,而采用分布式缓存则毕竟容易扩展。所以需要做好系统容量规划,并考虑是否可扩展。此外,不同的缓存框架或中间件,其效率和稳定性也是存在差异的。

4.其他因素

当缓存节点发生故障时,需要避免缓存失效并最大程度降低影响,这种特殊情况也是架构师需要考虑的。业内比较典型的做法就是通过一致性Hash算法,或者通过节点冗余的方式。

 

缓存失效策略

当缓存需要被清理时(比如空间占用已经接近临界值了),需要使用某种淘汰算法来决定清理掉哪些数据。常用的淘汰算法有下面几种:

FIFO:先进先出。判断被存储的时间,离目前最远的数据优先被淘汰。

LRU:最近最少使用。判断最近被使用的时间,目前最远的数据优先被淘汰。

LFU:最不经常使用。在一段时间内,数据被使用次数最少的,优先被淘汰。

 

其中,LRU过期时间包括:

TTLTime To Live):存活期,即从缓存中创建时间点开始直到它到期的一个时间段(不管在这个时间段内有没有访问都将过期)

TTITime To Idle):空闲期,即一个数据多久没被访问将从缓存中移除的时间。

 

 

FIFOFirst In First out

其实现算法原理按照“先进先出(First InFirst Out的原理淘汰数据。

实现步骤原理如下:

1. 新访问的数据插入FIFO队列尾部,数据在FIFO队列中顺序移动;

2. 淘汰FIFO队列头部的数据;

 

LRULeast recently used

其实现算法的原理根据数据的历史访问记录来进行数据淘汰。

核心思想“如果数据最近被访问过,那么将来被访问的几率也更高”。

 

实现步骤原理如下:

1. 新数据插入到链表头部;

2. 每当缓存命中(即缓存数据被访问),则将数据移到链表头部;

3. 当链表满的时候,将链表尾部的数据丢弃。

 

LFULeast frequently used

其实现算法的原理根据数据的历史访问频率来进行数据淘汰。

其核心思想“如果数据过去被访问多次,那么将来被访问的频率也更高”。

LFU的每个数据块都有一个引用计数,所有数据块按照引用计数排序,具有相同引用计数

的数据块则按照时间排序。

其具体实现步骤原理如下:

1. 新加入数据插入到队列尾部(因为引用计数为1);

2. 队列中的数据被访问后,引用计数增加,队列重新排序;

3. 当需要淘汰数据时,将已经排序的列表最后的数据块删除。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

牛路

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值