数据库服务器崩溃
- 缓存穿透现象
- 系统平稳运行过程中,应用服务器流量随时间增量较大
- redis 服务器命中率随时间逐步降低
- redis 内存平稳,内存无压力
- redis 服务器CPU 占用激增
- 数据库服务器压力激增
- 数据库崩溃
- 问题排查
- redis 中大面积出现为命中
- 出现非正常URL 访问
- 问题分析
- 获取的数据在数据库中也不存在,数据库查询未得到对应的数据
- redis 获取到null 数据未进行持久化,直接返回
- 下次此类数据到达重复上述过程
- 出现黑客攻击服务器
解决方案(术)
- 缓存null
- 对查询结果为null的数据进行缓存(长期使用,定期清理),设定短时限,例如30-60秒,最高5分钟
- 白名单策略
- 提前预热各种分类数据据id对应的bitmaps,id作为bitmaps的offset,相当于设置了数据白名单。当加载正常数据时,放行,加载异常数据时直接拦截(效率偏低)
- 使用布隆过滤器(有关布隆过滤器的命中问题对当前状况可以忽略)
- 实时监控
- 实时监控redis命中率(业务正常范围时,通常会有一个波动值)与null 数据的占比
- 非活动时段波动:通常检测3-5倍,超过5倍纳入重点排查对象
- 活动时段波动:通常检测10-50倍,超过50倍纳入重点排查对象
- 注意:根据倍数不同,启动不同的排查流程,然后使用黑名单进行防控(运营)
- 实时监控redis命中率(业务正常范围时,通常会有一个波动值)与null 数据的占比
- key 加密
- 问题出现后,临时启动防灾业务key,对key进行业务层传输加密服务,设定校验程序,过来的key校验。例如:每天随机分配60个加密串,挑选2到3个,混淆到页面数据id中,发现访问key 不满足规则,驳回数据访问
总结
缓存穿透访问了不存在的数据,跳过了合法数据的redis 数据缓存阶段,每次访问数据库,导致对数据库服务器造成压力。通常此类数据的出现量是一个较低的值,当出现此类情况以毒攻毒,并及时报警。应对策略应该在临时预案防范方面多做文章。
无论是黑名单还是白名单,都是对整体系统的压力,警报解除后尽快移除。