windows系列调试工具
01-windows调试工具(ProcDump使用)_越老越顽固的博客-CSDN博客_procdump使用方法
02-windows调试工具(DebugDiag使用)_越老越顽固的博客-CSDN博客_debugdiag怎么用
03-windows分析工具(depends定位动态库加载失败问题)
一:问题描述
- 之前做的某个项目最近需要验收,程序是由之前同事开发的,后来因为一直没有出现问题所以也没有继续关注,最近有人反馈我们之前的程序占用的CPU比较高,在服务器上一个简单的服务模块占用了14%左右的CPU。而且CPU是持续占用比较高,那就应该是存在某个线程死循环在处理某个业务,所以就使用任务管理器生成了一个dump文件来进行简单的分析。
二、生成dump文件
打开任务管理器---》选择进程--》创建转储文件,会生成一个dump文件
三、分析dump文件
- 打开windbg,选择File-->Symbol File Path 设置程序的pdb文件和系统的pdb文件,多个pdb文件路径用分号间隔开
- 打开dump文件,选择File-->Open Crash Dump 加载dmp文件
- 使用命令 !runaway 查看每个线程的用户态CPU使用的时间
- 明显可以看到13号线程,占用的时间最多,
- 使用命令切换到 ~13s 切换到13号线程
- 使用命令 kv 查看当前线程的调用堆栈,可以看到线程中使用到了一个封装的网络通讯库,一直在RecvFrom,猜测可能就是此线程在死循环在等待接收数据,中间没有等待时间,根据这个线索,然后继续定位代码模块
- 找到调用通讯模块库的线程代码。发现确实有一个while循环,继续点进函数里面查看。
函数内部是在不断的调用循环接收客户端数据,查看调用了通讯库的函数声明,最后一个参数就是等待的时间(单位ms),正常如果设置了阻塞等待的时间应该就不会产生如此高的CPU,那么肯定就是该通讯库的该参数无效, - 问题大概已经能定位,修改代码,在调用RecvFrom的函数后面,如果没有接收到网络数据就等待10ms。修改服务再次运行,服务的CPU瞬间下去。
四、总结
对于这种持续CPU高的问题,比较好排查,一般可能就是某个线程中没有等待在死循环执行,根据dump文件,查看函数调用堆栈,便可以分析出问题,对于偶发性的高CPU排查,就需要使用到我前面文章中有提到过的procdump工具,在高CPU的时候抓取dump文件,然后使用windbg工具进行分析。