java程序在运行一段时间后,内存逐渐爆满,随后cpu使用率上升
上周遇到一个很奇葩的问题,现场反应,程序运行20分钟以后cpu使用率在90%以上,拿到代码无从下手,经过几天的研究,最终找到原因并解决。
通过现场bug现象,初步分析,是由于程序占用过多的系统资源,导致cpu使用率过高,怀疑是资源没有合理释放,或者程序在运行时出现死循环
一、通过windows自带工具查看占用内存的线程
https://blog.csdn.net/hexin373/article/details/8846919
我参照上面这篇文章,可以定位到具体问题位置,不得不说,这种方式也许可以解决几乎所有由代码引起的cpu使用率过高的问题,但我通过这种方式并没有定位到程序的具体代码,而是如下的位置:
在计算机上,我的cpu使用率过高的线程被定位到了这几个垃圾回收器上,进一步陷入迷惑,垃圾回收器不是java自己维护的吗!!怎么会有问题!!这也排除了cpu使用率过高是由于死循环造成的可能
二、cpu使用率高是由于GC线程
GC占用cpu线程,那肯定是程序中资源占用不释放了,那就去排查代码喽,通过一系列鬼知道发生了什么的操作(什么开启关闭部分功能,代码logger打印查看...),最终定位到了一个定期任务上,然后就去看看哪的资源不释放,也在网上看了下需要手动关闭的资源:
- io流需要手动关闭
- 获取到的连接,不管是redis还是jdbc
- hibernate通过openSession创建的连接(getCurrentSession()绑定线程,在rollback或commit后自动归还连接到池或关闭)
局部代码排查后并没有发现未释放的资源...wtf....这怎么办!!!
三、问题描述
既然代码没问题,就从业务方面入手,下面我说下我的问题,希望能提供一些思路:
既然是定时任务模块的问题,那就看定时任务,如下是定时任务的部分代码:
for (String runId : runIds) {
tempObj = tempMap.get(runId);//从缓存中获取运行中对象
if(tempObj != null){
// 异步执行普通节点线程任务
DbThreadPool.getInstance().add( new DealRunTempTask(tempObj,dealDataService));
}
}
大概就是加载一个模版开启一个线程,线程数已经被限定在了一定数量,那问题就是在处理每个线程的时间过长,导致多个任务叠加在一起,老线程没运行完不释放资源;新线程拿不到资源,无法运行。
线程运行时间过长是因为每个线程中需要处理的数据越来越多,程序运行时间越长,叠加的待处理数据越多,一些数据在获取失败后,会判断数据库连接等是否可用,造成超时等待,这样时间会更长,大概业务是这样:
可以看出,处理失败的数据只要不过期会不断累加,造成处理时间越来越长,最终内存爆满,cpu暴增。
四、解决方法
为业务设置合理超时时长,并优化数据处理失败时的逻辑。使数据处理失败的处理判断用时更短,例如:同一类超时情况只判断一次,失败任务分批处理。
五、总结
我碰到的cpu使用率过高,是由于定时任务处理时间过长,每次定期任务间隔时间短,导致定期任务叠加执行,耗用大量系统资源。解决方法是:优化缩短每次定时任务执行时间。