排查一次生产上java程序创建过多线程的问题
查看用户最大线程数,普通用户默认为4096
ulimit -u
打印所有进程及其线程,树状结构,枝干是进程,叶子是线程,生产环境会比较多
pstree -p
打印所有线程的数量
pstree -p |wc -l
打印某个进程的线程数
pstree -p {pid} | wc -l
查看服务器上所有的进程号
jps -l
查看指定进程号(pid)的数量
ps -T -p pid | wc -l
dump线程栈,注意要使用进程(pid)同用户进行导出,
(如果你爆出VM空间的错,你要检查一下你是不是用同一种jdk打包和运行的,
如果你打包用的oraclejdk,运行用openjdk那就会有这个错误)
jstack pid > jstack.txt
搜索线程栈的线程现状种类,
cat jstack.txt | grep java.lang.Thread.State | awk '{print $2}' | sort | uniq -c
我这次排查的线程过多是太多的TIMED_WAITING,
实际检查为密码键盘的一处调用,密码键盘是第三方公司的jar包,
他在初始化的时候会创建一个线程单独与密码机器联系,并且等待被调用后唤醒;
这里应该是在bean新建的时候new一个,实际上每次调用密码键盘的时候创建了一个,
导致创建了太多的线程,实际创建了2千多个,用户最大线程数为4096,导致程序假死。
如果你这个用户创建线程已满,导致你无法ssh,你可以进入root(root的线程数较多),然后使用root kill掉几个进程,然后就能登录了。