记hy257.cn线上服务器全面崩盘事故
本文采用中国标准北京时间(UTC+08:00)
- 2月11日
- 21:30
开始在线上环境部署已在测试服务器成功部署的博客系统OneBlog。 - 21:43
使用apt安装maven和jdk环境完成。 - 22:05
源码拉载成功,开始使用mvn打包。 - 22:24
打包成功,但过程中由于拉取了大量配置包,导致磁盘爆满到100%。 - 23:15
发现该磁盘问题,临时加部署了一块30G的云硬盘尝试挂载。 - 23:35
成功挂载到系统,尝试添加分区做永久挂载。 - 23:41
分区多次创建失败。由于系统盘100%,连mkdir
操作都无法执行。
- 21:30
- 2月12日
- 00:31
清除了一部分系统文件,尝试重启系统来释放空间。 - 01:00
执行reboot命令前,登录服务器提供商(腾讯云)控制台查看服务器状况,发现CPU异常飙升,占用率达到97%并持续不断。 - 01:02
执行了3次冷重启和1次强制断电后,均无法解决该CPU问题。 - 01:13
尝试使用VNC登录,但CPU直接爆100%,内存99%。VNC失败。 - 01:26
腾讯云工程师介入系统,开始排查问题。 - 01:35
腾讯云机房介入,实例进入救援模式。
这是本服务数月来首次在腾讯云机器上进入救援模式。 - 01:39
腾讯云技术顾问开始排查问题。 - 02:07
硬盘成功腾空,但是CPU和内存居高不下。 - 02:16
开始设置nginx和docker的非开机自启并尝试重启。 - 02:35
确认是OneBlog博客系统导致的内存异常。已卸载该容器。 - 03:16
确认工作结束。 - 06:27
部分服务恢复正常。 - 10:40
主线服务恢复。
- 00:31
本次意外显示出了我工作的另一个问题,就是在部署前没有考虑好所需要的系统资源,最终导致了意外。