- 2021-04-18日,生产服务器主备机器资源报警,进程OOM,下面是排查问题的全过程
- 通过top查看到了cpu占用比较高的应用服务,我们的服务器上部署了多个应用,探查到cpu占用率400%;
- 使用 ps -mp pid -o THREAD,tid,time |sort -rn 命令查看当前pid 占用资源较高的线程tid并进行排序
- 将线程格式转换为16进制后 printf “%x\n” tid
- 得到十六进制后的线程tid后使用 jstack pid |grep tid -A 30 查看线程的堆栈信息
- 最后发现是一个Socket服务接口在接收输入流时,加了一个InputStream.available(),这个方法是因为链接建立但是数据还在发送中,需要while循环的获取,开发时没有考虑到空包并且客户端未关闭连链接的情况,导致了服务端死循环, 从而导致CPU使用率飙升;
最后解决方案为主动发送探测包,判断服务端状态如果没有响应主动的关闭链接;