1、 现象
应用接口人:“又报警了,旺旺都没法输入了……” “我的妈啊,几百个异常提醒,太恐怖了……”
监控首页:一片大红
2、 监控通信框图
上图左边的代码安装在各台机器上,大概480台左右,右边webApp有两台服务器,而与Agent通信的Server只有一台服务器。
3、 排查过程
1) 挂掉点是一段Jar包的java程序,自然排查其启动的内存,以及最大内存,查看启动参数:
java -Xmx256m –Xms256m -jar../lib/gaea.env.server-0.0.1-SNAPSHOT.jar
2) 要与几百台机器通信,并且没5秒钟都有监控任务要处理,并写redis,怀疑内存太小,加大内存。
java -Xmx2048m –Xms2048m -jar../lib/gaea.env.server-0.0.1-SNAPSHOT.jar
刚开始运行,监控显示非常正常,结果运行一晚上之后,监控图如下:
查看垃圾回收情况ÿ