背景
电商场景促销活动的会场页由于经常集中在某个时间点进行“秒杀”促销,这些页面的QPS(服务器每秒可以处理的请求量)往往特别高,数据库通常无法直接支撑如此高QPS的请求,常见的解决方案是让大部分相同信息的请求都尽可能地压在缓存(cache)上来缓解数据库(DB)的压力,从而尽可能地去满足高并发访问的诉求(如图2-1所示)。
在一次业务促销过程中,运营给一大批用户集中推送了一条消息:10点钟准时抢购一批远低于市场价而且数量有限的促销活动商品。由于确实物美价廉,用户收到消息之后10点钟准时进入手机客户端的会场页进行疯抢。几分钟内很多用户进入会场页,最终导致页面异常,服务器疯狂报警。报警信息显示很多关于缓存的异常,由于缓存拿不到数据转而会转向数据库去查询数据,这样数据库更加难以支撑,整个业务集群处于雪崩状态(如图2-2所示)。
此时