背景
- 我们的业务共使用11台(阿里云)服务器,使用SpringcloudAlibaba构建微服务集群,共计60个微服务,全部注册在同一个Nacos集群
- 流量转发路径: nginx->spring-gateway->业务微服务
- 使用的版本如下:
spring-boot.version:2.2.5.RELEASE
spring-cloud.version:Hoxton.SR3
spring-cloud-alibaba.version:2.2.1.RELEASE
java.version:1.8
案发
- 春节放假期间,收到反馈,网页报错服务未找到(gateway找不到服务的报错提示).
- 查看nacos集群列表,发现个别服务丢失(下线).
- 这个问题每几天出现一次,出现时间不固定,每次掉线的服务像是随机选的几个.
- 服务手动kill+restart后能稳定运行2-3天
排查和解决
怀疑对象一:服务器内存爆了
1.进阿里云控制台查看故障机器近期的各项指标,但是发现故障机器的指标有重要的几项丢失,内存使用率,cpu使用率,系统负载均不显示