前序:
系统开发完毕后进入了关键阶段——用户培训和上线部署,本项目在期间的部分点滴已经被博主记录,见《发生在眼前的故事:做好最坏的打算,往往事情不会去到最坏的地步》系列故事,这回再谈谈在用户培训过程中发生的故事:垃圾回收不回收。
场景:
用户培训需要培训环境,培训环境搭好后,由于不常更新跑的时间较长,考验系统稳定性的时候到了,很可惜稳定性这个问题与我们大家的美好愿望一直背道而驰,天天求神拜佛也不行很不给面子,发现了一个原因解决了又出现了其他引起当机的因素,弄得是焦头烂额,下面就是我们发现的一个引起当机的原因,请各位提高警惕。
9 月 16 日 系统当机,Weblogic报出java.lang.OutOfMemoryError: PermGen space异常,10-15分钟后就会发生<[STUCK] ExecuteThread: '2' for queue: 'weblogic.kernel.Default (self-tuning)'> <<WLS Kernel>> <> <> <1221538218253> <BEA-000339> <[STUCK] ExecuteThread: '2' for queue: 'weblogic.kernel.Default (self-tuning)' has become "unstuck".>的错误,此时domain的控制台已经无法访问。
排查分析:
1、参考tomcatFAQ: http://wiki.apache.org/tomcat/FAQ/Deployment中如下内容:
Why does the memory usage increase when I redeploy a web application?
Because the Classloader (and the Class objects it loaded) cannot be recycled. They are stored in the permanent heap generation by the JVM, and when you redepoy a new class loader is created, which loads another copy of all these classes. This can cause OufOfMemoryErrors eventually.
Tomcat FAQ指出SUN JVM对处于permanent heap generation(默认4M)的内容不做垃圾回收会导致内存溢出错误。
2、在SUN 官方网站找到一个2003年的bug Report,http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=4957990,Synopsis :PermHeap bloat in and only in server VM,直到现在状态还是6-Fix Understood, 没有修复。
解决方案:
根据上面的分析,再结合我们系统的环境(Weblogic 使用Solairs系统安装的JDK5.0)我们可以确定是由于SUN JVM对permanent heap generation 区域的内容不做垃圾回收造成应用动态Load class文件过多引起的OutOfMemory错误。同时提出两套解决方案:
- 增加PermGen space参数大小
-
更换不同厂家JVM
考虑由于开发采用JDK1.5,换用其他JVM存在风险,故修改weblogic启动服务调用的批处理setDomainEnv.sh文件,将其中的一截片断进行修改:
if [ "${JAVA_VENDOR}" = "Sun" ] ; then
MEM_ARGS="${MEM_ARGS} ${MEM_DEV_ARGS} -XX:MaxPermSize=128m"
export MEM_ARGS
fi
中MaxPermSize改成1024m,验证问题是否存在。
实施结果:
系统再未出现OutOfMemoryError运行正常.该原因引起的当机问题解决。
从Java的经典书籍到Sun的官方网站都在宣扬Java的优势之一——垃圾回收,“自动释放内存,减轻编程负担”,可是谁能想到Sun的JVM还有这问题——不回收load class文件而产生的Class类对象。所以不要迷信权威,根据现象一步一步抽丝剥茧、细心求证才是王道!