答案来源
问题定位的步骤如下:
- 找到CPU使用率较高的进程
- 找到CPU使用率最高的线程
- 查看堆栈信息,定位到相关代码
步骤一、找到耗CPU的进程
执行top -d 1
,显示进程运行信息列表。
如上图 ,最耗CPU的进程PID为:11205
步骤二、找到耗CPU的线程
通过上一步,我们确定了是pid=11205的cava_smu进程cpu过高,那么可以通过top -d 1 -p 11205 -H
来确认cpu过载的线程tid,如下图所示:
通过以上操作,可以确认tid=11208,11212,11213三个线程的cpu过高。
步骤三、查看堆栈信息,定位相关代码
首先,如果生产环境没有dlv,则可以拷贝对应的dlv到/usr/local/bin
下。
接着 dlv attach 11205
,确认tid=11208的goroutine 序号,如下图所示:
在dlv中切换到对应高cpu协程,并查看堆栈
通过以上操作,可以确认业务底层的栈帧是第6→5帧,business.go:18行的disPatchTask ->business.go:168 行的dispatchIdleTeu方法相关,查看对应版本代码如下:
代码执行到下图中,dispatchIdleTeu返回了错误qferror.ErrNoTeu。
代码执行到下图中,189行dispatchIdleTeu返回了错误qferror.ErrNoTeu,所以189 if的执行语句192~212无法进入进行,而外层是一个for死循环,则会造成该协程一直占用cpu,导致cpu过载。