一、背景介绍
在开发项目中发生了一次OOM
问题,通过crash
平台查看上报信息,发现在很多的页面都有报这个错误,但是相同的出错都是以下的错误,看不到APP
的堆栈只能看到是线程池创建有问题的堆栈信息,如下所示:
java.lang.OutOfMemoryError: pthread_create (1040KB stack) failed: Try again
at java.lang.Thread.nativeCreate(Native Method)
at java.lang.Thread.start(Thread.java:883)
at java.util.concurrent.ThreadPoolExecutor.addWorker(ThreadPoolExecutor.java:975)
at java.util.concurrent.ThreadPoolExecutor.processWorkerExit(ThreadPoolExecutor.java:1043)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1185)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:641)
at java.lang.Thread.run(Thread.java:919)
从上报信息看到最后的线程数是 1456
个,这个数量是远远超出我们正常使用量的,再通过这个堆栈信息我们可以知道就是APP
中的线程创建数量太多而导致的OOM
,排查方向的重点就是要关注APP
里面线程池使用的地方;不同页面都会报这个错误,那这个问题说明不是在特定页面产生的,是通性问题,那么就需要来检测整体的线程状态来看,看看是哪里在一直的创建线程,有了思路就开始先来分析线程状态吧。
二、排查方法
2.1 Android CPU Profiler
由于线程池导致的 OOM
问题,我们需要查看当前的线程池的状态,有Android CPU profiler
这个工具可供使用,那么我们就可以通过这个工具来做检查了,启动profiler
可以看到当前创建的所有线程基本信息,线程状态等;可以看到对应的线程数和线程名称,以及线程的状态,以此可以进一步排查问题,如图所示:
但是这个工具有两个问题:
- 要
AS
连接当前的进程,连接成功之后APP
的部分操作会比较卡顿,不如正常使用流畅 - 确实展示了所有线程的名称以及状态,但是不能分类统计;比如说我想知道
OkHttp Dispatch
这个为前缀的线程名现在有多少个了,这个很难统计;
基于此我们可以使用adb shell
中的ps
命令来同样观测当前的线程状态
2.2 ps 命令
根据包名查看当前进程
adb shell ps | grep xxx
得到当前进程pid
或名字则查看当前所有的线程
adb shell ps -T | grep 6661
这样就可以看到当前的所有的线程了,可以使用wc -l
来统计线程数量。
2.3 开始排查