今天遇到个问题,记录一下,供大家借鉴
问题描述:
17:43:40 - 17:48:50 数据库流量突然掉零,导致业务TP99升高,可用率降低
原因分析:
a, 怀疑当时有大SQL阻塞了,排查当时的慢日志发现并没有大的SQL在执行;抓取当时的活动会话,也没有看到有任何执行的sql;
b, 怀疑实例当时OOM了,但是查看uptime是正常的;
c, 查看监控看到当时实例不响应,连通性异常 ;而且数据盘IO磁盘满
原因: 当时swap降低,内存升高,数据库需要读取swap中的数据,发生了swap in,从而导致IO满,影响业务;
解决:关闭数据库SWAP
sar -W可以查看swap in信息