问题:java应用CPU占用持续高位
一般性结论:一般来说,CPU占用高不高的问题,不是给定一个数值,例如90%以上就算高,以下就算正常,正常来说,随着程序的运行,CPU不断变化,百分之几,百分之几十,百分之百,都有可能,而CPU持续的高位,例如一直300%或者更多800%(多核),才可以认定为CPU占用过高问题。
对于java来说,频繁的IO读写,创建过多的线程,CPU都会较高,而线程死锁或者死循环基本是导致cpu高的罪魁祸首。
具体问题切入:某联通正式环境运行10分钟后CPU达到300%,运行一天以后持续在800%
主机环境:Red Hat Enterprise Linux Server release 5.6 (Tikanga)
JDK:jdk1.6.0_6
tomcat:apache-tomcat-6.0.20
问题定位过程:
1、找到JAVA进程
ps -ef | grep java
2、查看系统运行情况
top 找到对应的java进程,查看cpu情况,下图是示意图,问题已经解决后的系统运行情况
3、找到可疑的执行线程
在top监控页面,按shift+h切换到线程监控状态,如下图
有10几个java线程,占用CPU达到100%,运行时间超过100分钟,这样的线程就是可疑线程
4、定位线程执行的具体代码
找到其中的线程,12293,转换成16进制,字母小写,16进制为 3005,执行
jstack java进程 |grep -A 30 3005,如下:
到这里,基本能看到这个线程具体执行一些代码信息,运气好的话,能直接看到具体的功能代码,但是,很不幸,这个没有看到具体的功能。
5、找到出问题的功能,审阅功能代码
上面的图片,我们能看到一些信息,应该在corba一块的功能,但是这个范围太大,怎么找功能?我看了很久,终于找到方法,线程运行的时间我们知道,当前时间我们知道,那减去运行的时间,就是线程刚开始执行的时间,tomcat是基于http的,我们只要找到请求的url,就知道功能了,于是我看tomcat日志,找到那个时间点运行的功能,定位到两个,性能和流量的实时查询。查看了两个功能的代码,发现这两个功能应该都没有问题。程序中并没有多线程的操作,也没有死循环,怎么办?
6、别放弃,找度娘
我在百度搜索sun.nio.ch.EPollArrayWrapper.epollWait ,出现了一些反映相同问题的网页,比对了很多,最后定位到导致这个问题的是nio早期版本的一个BUG(http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=6403933)但是我还有疑惑,java官网上,说在1.6.0_4就会解决这个问题,但是很多网友反馈,并没有解决,我们用的是_6的版本,也发现了这个问题。于是死马当活马医,升级JDK到最新版本_45,升级完成后,观察了几个小时,CPU再没有上来,没有见到可疑的长时间运行的线程。问题告一段落。总结:上面的问题,使用的环境,我们在很多项目有用,在其他项目没有发现这样的问题,这个问题可能也只是在有限的软硬件条件下才能触发,希望大家在这个过程中,找到JAVA应用CPU占用分析的一些思路。