1、网关调room,报超时/500/noconn,通过监控看到504码或超时问题集中在一台实例,所以先摘流,再查是慢查询还是啥其他原因
2、高qps批量接口未设置批量上限,通过监控看到redis的某些命令超时,并且房间主读实例和db未分出独立份来供其他业务调用,导致其他业务的查询影响到主实例
3、端上新发了代码误ddos,通过http_user_agent版本类型标识定位到一个端(LiveHime/4.20.0.3399 os/Windows pc_app/livehime build/3399 osVer/10.0_x86_64)的一个版本有问题
4、上游外部门动态业务报错,查到这边,通过看日志qotra_time字段看到给的时间不够了
5、房间状态不一致,通过跨机房mq延时告警看到消费延迟,消费代码中新加入逻辑导致消费变慢再加上了单实例消费没冗余
6、xanchor,通过第一条错误日志告出来的内容,mq消费代码panic导致xan服务起不来,离线任务和在线服务分离
7、一个实例pod内有三个容器(主容器、db代理容器、缓存代理容器),缓存代理容器出现core dump挂掉然后重启了,期间出现缓存读写拒绝服务
8、多个服务实例同时重启,宿主机挂掉,其上的容器触发了漂移。