10月份 公司服务器频繁出现问题,整个优化过程如下
最开始能所做的工作,为了应急只能频繁重启,频繁重启的原因只有一个,因为重启无效只能暂时恢复,立马又会因为服务器内存爆掉而瘫痪,解决问题的方式只有频繁重启。高峰时期的请求数和数据库处理能力不在一个平衡点。大量重启之后,服务器恢复正常。整个过程常常伴随着阿里云数据库的主备切换。
公司业务架构比较古老,一台windows(存在的原因是因为被部分终端指定了ip)+两台linux(其中一台装了nginx。通过域名访问 到nginx 再分发到两台linux)+memcached缓存session 没了,外加一个sql server数据库实例。服务器和数据库均挂靠在阿里云上。
首先从公司的整个服务器架构分析出问题的点有两个
1. 服务器内存爆掉,导致服务器响应不了新的请求,特征同步变得非常缓慢,再慢慢到同步不了
2. 数据库死锁异常严重。性能极差
观察到
数据库的各项指标
优化过程前的iops,以及 cpu 情况,数据库连接数情况 分别取了17号到21号的数据
cpu
iops