场景:业务流程:支付系统接受外部代理公司订单请求,系统内部处理订单流程并向银联网联发送支付请求,收到银网联响应,并处理响应信息给外部代理公司。突然某天生产服务cpu告警,达到100%。
- 排查问题逻辑
1.top -c 查找耗cpu最多的进程和进程id
2.java服务cpu占用率高
top -Hp pid 查找进程里cpu占用高的线程
jstack pid > /home/app/temp/order_jstack.txt 下载堆栈信息
jmap -heap pid > /home/app/temp/order_heap.txt 下载内存使用信息
3.恢复上个稳定版本,重启服务
4. grep pid(16进制) --color order_jstack.txt 查看堆栈信息,定位代码
5.修改代码,测试通过并上线
- 反思
1.定位问题,down服务内存快照
2.恢复稳定版本,减少损失
3.按照标准上线流程处理问题
4.review代码细致,可能造成性能问题,进行压测