问题暴露
当出现假死问题后,首先出问题的是上游面向用户的服务,汇总问题点
1:上游管理oms卡死
2:上游小程序涉及订单接口很慢到直接卡死
通过生产环境linux命令排查发现cpu以及内存都非常低,观察生产日志刷新很慢,基本确定服务假死不再提供服务,通过重启服务发现,重启后会进行cpu线程数报障但服务可用,持续不到一分钟后暴跌服务假死
环境情况
k8s微服务集群,jdk1.8,springcloud相关组件,mysql数据库
问题排查
1、怀疑数据库问题
生产环境使用腾讯云数据库,通过监控查看发现当前数据库的cpu占用只有百分之零点几,内存方面也很低,通过
2、怀疑nacos转发问题
调用其他同级服务发现一切正常
3、怀疑网络问题
本地通过域名-nginx-服务接口发现正常
4、怀疑jvm内存问题
通过工具发现内存使用很低,在腾讯云服务器观察服务器指标也正常
5、怀疑服务内线程问题
通过引入arthas排查工具,运维同学远程进入当前服务doker内部继续arthas安装
- 查找当前服务 docker ps -a | grep order-service
- 通过当前服务进程 docker exec -it a581b287c4bd /bin/bash<