翻看去年处理的一个案例,发现处理时间挺长的,而且这个案例也有点意思,就再看多两眼,做个简单总结。
1. 首先是应用服务器性能不稳定,排查之后,服务器是VM,要求加资源,并且所有资源都Reserved.
2. 接着就是应用服务器连接数据库时很不稳定,数据库经常报“Recovery Mode”。好像是数据库莫名被关闭,导致非常关闭,然后再重启时处理“Recovery Mode"。排查之后,发现是数据库服务器那边,会经常把数据库进程给杀掉。Linux有个OOM-Killer这东西,不看系统日志,还不好确认它就是根源。
3. 接着就是协助客户改进数据库服务器性能,调整数据库参数。
4. 之后,处理数据库空间增大的问题。
现在看来,好像也就寥寥几句而已。当时环境比较复杂,又不是现场排错,处理起来比较耗时耗力。还好,客户很配合,也理解遇到的问题,需要调整的地方都尽量调整。整个过程还算比较顺利。