一、背景
我们的业务共使用 11 台(阿里云)服务器,使用 SpringcloudAlibaba 构建微服务集群, 共计 60 个微服务, 全部注册在同一个 Nacos 集群。
流量转发路径:nginx -> spring-gateway -> 业务微服务。
使用的版本如下:
-
spring-boot.version:2.2.5.RELEASE
-
spring-cloud.version:Hoxton.SR3
-
spring-cloud-alibaba.version:2.2.1.RELEASE
-
java.version:1.8
二、案发
春节放假期间收到反馈,网页报错服务未找到(gateway 找不到服务的报错提示)。查看 nacos 集群列表,发现个别服务丢失 (下线)。
这个问题每几天出现一次, 出现时间不固定, 每次掉线的服务像是随机选的几个。服务手动 kill+restart 后能稳定运行 2-3 天。
2.1 排查和解决
怀疑对象一:服务器内存爆了
进阿里云控制台查看故障机器近期的各项指标,但是发现故障机器的指标有重要的几项丢失。内存使用率、CPU 使用率、系统负载均不显示。