618 秒杀 上一次活动 宕一次机,救火现场经验get
experience
起因: 活动上线前未按照计划压测
结果:tps 过大造成 rds 慢查询 流量直接打死rds数据库,造成服务不可用,用户不能正常下单
处理方式
当时这个业务线不属于我们项目组,因为其他组某些同事的水平有限(把机器数*2)未能及时解决问题,所以被临时派去救火
查询 rds 慢查询日志 发现 秒杀活动时明显出现 大量慢查询 日志, 定位到某个业务sql
优化业务逻辑,重新压测 发布版本
Lesson and summary
学习一下 阿里云大哥的ppt
大型活动还是严格按照 规则来进行 不能随意试试 ,试试就逝世do 头