近期生产某系统中多次出现weblogic应用程序的线程被置为粘滞STUCK,导致weblogic的线程阻塞和cpu占用率上升,引起weblogic服务挂起现象。
因此特对Weblogic线程的状态进行总结和分类。
活动线程(ACTIVE Thread):
有资格处理传入请求的线程被归类为ACTIVE线程。
当线程需求增加时,Weblogic将开始将线程从待机状态提升到活动状态,这将使他们能够处理未来的客户端请求
阻塞线程(block Thread):
"weblogic.kernel.Default"是从客户端提交请求后产生的线程所在的队列名。这个队列的线程数默认是30个。若30个线程使用完毕,特别是存在大量粘滞线程无法释放,则会造成线程堵塞,后续大量线程被置为 block状态。则部署的应用将不能访问。
如果发送该请求较多,很有可能会导致weblogic的线程阻塞,严重会引起weblogic挂起现象。
可以通过以下几种方法解决:
1)修改StuckThreadMaxTime参数,将默认的600s改成1200s,或者其它适合的值。
2)增大线程数MaxPoolSize,防止线程阻塞问题。
3)优化程序,减少处理时间。
粘滞线程(Stuck Thread):
就是那些执行时间超过“粘滞线程最长时间”(默认是600秒)的线程。“StuckThreadMaxTime”的默认值为10分钟。
如果执行线程处理某个请求的粘滞时间超过了配置的粘滞线程最大时间,则为“真”。
可以通过控制台的设置来增大或减小这个值: 控制台 >> 环境 >> 服务器 >> MedRecSvr1 >> 配置 >> 优化 >> 粘滞线程最长时间。
但修改这个值没有太大意义,大部分线程处于Stuck,都是应用存在异常导致,增加时间并不能解决问题。
WebLogic把某些线程标记为Stuck Thread,是为了提醒那些线程执行的时间过长。
应该去分析线程为什么需要那么长时间才能执行完(甚至永远执行不完)。
独占线程(Hogging Thread):
如果根据调度程序的自动观察,某个请求独占执行线程的时间超过了正常执行时间,则为“真”。
WebLogic要把一个线程标记为Hogging Thread需要满足两个条件:
(1)线程执行时间超过了“正常执行时间”。
(2)线程执行时间还没有超过“粘滞线程最长时间”。
随着时间的推移,Hogging Thread会出现两种不同的状态变化:
(1)在超过“粘滞线程最长时间”之前,请求执行完毕,Hogging Thread被释放,重新回到线程池,等待下一个请求的到来。
(2)超过“粘滞线程最长时间”之后请求还没有执行完毕,Hogging Thread被标记为Stuck Thread,直到最后执行完毕(虽然有可能永远执行不完)。
待机线程(STANDBY Thread):
等待标记为有资格处理传入请求的线程被归类为STANDBY线程。 这些线程保留在备用池中。处理当前工作负载不需要的线程被指定为备用线程并添加到备用池中。
当需要更多线程时,将激活这些线程。这些线程是从JVM线程转储创建并可见的,但尚不可用于处理客户端请求。