有哪些常见的线上故障?如何快速定位问题?
前言: 线上定位问题时,主要靠监控和日志。一旦超出监控的范围,则排查思路很重要,按照流程化的思路来定位问题,能够让我们在定位问题时从容、淡定,快速的定位到线上的问题
本文详细总结工作中的经验,从服务器、Java应用、数据库、Redis、网络和业务六个层面分享线上故障排查的思路和技巧。较长,同学们可收藏后再看。
线上问题排查思路导图:
一、 服务器层面排查
1.1 CPU过高
1.2 磁盘不足
1.3 内存不足
二、 Java应用层面排查
2.1 Tomcat假死案例分析
2.2 应用CPU过高
三、 数据库层面排查
3.1 mysql死锁
3.2 慢SQL
3.3 连接数过多
四、Redis层面排查
4.1 内存告警
4.2 Redis的慢命令
五、网络层面排查
5.1 是否遭受了DOS攻击
5.2 查看TCP连接状态
六、业务异常层面排查
6.1 业务日志监控主动报警 被动发现
6.2 日志分析 被动发现