本文来自网易云社区
作者:苏鹏
最近部门的某产品周末时候测试服务器下会无故宕机,周一测试的同学来问具体原因,综合周末收到的哨兵系统的报警,简单分析了现象,应该是后台服务的原因。
1.首先登录哨兵系统,查看我们部署的服务的状态
此处内存、硬盘等指标都是比较正常的水平,但是CPU在某一个时间段非常高,所以初步判断是CPU异常导致了服务宕机(此处应有CPU状态异常图,但是当时没有把事故现场保存下来)
2.登录服务器,查看服务器状态
(1) 查看日志
登录部署服务的两台服务器,查看我们部署的两台服务器的日志,果然发现日志里报了oom的错误
(2)使用top命令
使用top命令,也能看到本服务的CPU占用率会井喷
图略ÿ