背景
经项目团队反馈,老产品系统时不时出现卡死问题,重启之后就好了。于是到客户现场进行调查。
目标
在一些老的财务系统中,仍然使用的是IBM的硬件及它的操作系统AIX,本次熟悉aix基本检查操作以及aix下的java出现内存溢出时如何操作。
检查
老产品使用双机部署,操作系统是AIX,java版本使用也是IBM的定制化版本。只介绍一台服务器的检查情况
磁盘检查
df -g
可以看到磁盘分区占用情况,/dev/hd4使用率已超过86%
查找哪些文件的大小,并排序
du -a | sort -nk | more
查看当前目录占用大小,准怀疑目录已占用93G
du -sg
CPU检查
不是linux中的top,而使用topas命令,发现all CPU占用73%多,头两个进程占了73%,而通过ps -ef |grep java对比进程信息发现头两个进程是非本公司产品进程。
TongWeb检查
在tongweb_home/bin目录下,发现不少phd文件和javacore文件,选取
heapdump.20240703.093927.9306356.0001.phd 和javacore.20240705.093034.9306356.0011.txt
hpd堆文件分析
在本机的命令行,调整java path环境变量(调整为1.7或1.8,更高的使用有问题),执行
其中-Xmx10192M最大内存的设置一定要大于真实TongWeb java实例的-Xmx,不然会卡死。ha457.jar在附件中提供。
java.exe -Xms1048M -Xmx10192M -jar ha457.jar
选择heapdump.20240703.093927.9306356.0001.phd,他将会解析成hax后缀的文件,然后持续进行分析。
查看”summary“汇总页,内存已使用6G,同-Xmx配置一样,已满。
再切到"内存泄漏"页,按箭头方向向下推理,找到可疑堆栈,如图,其中某个对象有2.3万对个,判断为这个堆栈查询了至少2.3万多个对象,可能还没执行完就崩溃了。
javacore文件分析
运行如下,jca4611.jar将在附近中提供:
java.exe -jar jca4611.jar
按照同样的方式载入javacore.20240705.093034.9306356.0011.txt,发现如下,和hpd文件创建时间相似(文件名可以看出),确认无误是这个内存溢出情况。
平时处理时,我们可以分析javacore DUMP时的堆栈情况,如下: