java应用开发中经常会遇到以下问题:
- 内存不足OutOfMemory(大对象没有gc等),内存泄露;
- 线程死锁,线程数过多;
- 锁争用(Lock Contention),资源未及时释放(数据库);
- Java进程CPU消耗过高.
如果遇到了以上这种问题,在线下可以有各种本地工具支持查看,但到线上了,就没有这么多的本地调试工具支持,我们该如何基于监控工具来进行定位问题?
我们一般会基于数据收集来定位,而数据的收集离不开监控工具的处理,比如:运行日志、异常堆栈、GC日志、线程快照、堆快照等。经常使用恰当的分析和监控工具可以加快我们的分析数据、定位解决问题的速度。以下我们将会详细介绍。
一、jvm常见监控工具&指令
1. jps
用来查看基于HotSpot JVM里面所有进程的具体状态, 包括进程ID,进程启动的路径等等。
命令格式:jps [options ] [ hostid ]
[options]选项 :
-q: 输出VM标识符pid
-m:输出main method的参数
-l: 输出完全的包名,应用主类名,jar的完全路径名
-v: 输出jvm参数
-V: 输出通过flag文件传递到JVM中的参数
-Joption:传递参数到vm,例如:-J-Xms512m
[hostid]:[protocol:][[//]hostname][:port][/servername]
2. jstat
查看classloader,compiler,gc相关信息,实时监控资源和性能 。jstat工具特别强大,可以用来监视VM内存内的各种堆和非堆的大小及其内存使用量。
语法结构:
jstat -<option> [-t] [-h<lines>] <pid> [<interval> [<count>]]
Options — 通常使用 -gcutil 查看gc情况
interval – 间隔时间,单位为秒或者毫秒
count — 打印次数,如果缺省则打印无数次
结果说明:
S0 — Heap上的 Survivor space 0 区已使用空间的百分比
S1 — Heap上的 Survivor space 1 区已使用空间的百分比
E — Heap上的 Eden space 区已使用空间的百分比
O — Heap上的 Old space 区已使用空间的百分比
P — Perm space 区已使用空间的百分比
YGC — 从应用程序启动到采样时发生 Young GC 的次数
YGCT— 从应用程序启动到采样时 Young GC 所用的时间(单位秒)
FGC — 从应用程序启动到采样时发生 Full GC 的次数
FGCT— 从应用程序启动到采样时 Full GC 所用的时间(单位秒)
GCT — 从应用程序启动到采样时用于垃圾回收的总时间(单位秒)
- jstat –class<pid> : 显示加载class的数量,及所占空间等信息。
- jstat -compiler <pid>: 显示VM实时编译的数量等信息。
- jstat -gc <pid>: 显示gc的信息,查看gc的次数,及时间。
- jstat -gccapacity <pid>: 显示VM内存中三代(young,old,perm)对象的使用和占用大小
- jstat -gcutil <pid>: 统计gc信息
- jstat -gcnew / gcnewcapacity<pid>: 年轻代对象的信息(及其占用量)。
- jstat -gcold / gcoldcapacity <pid> :old代对象的信息(及其占用量)。
- jstat -gcpermcapacity <pid>: perm对象的信息及其占用量。
- jstat -printcompilation <pid>: 当前VM执行的信息。
查看gc 情况执行1秒一次:jstat -gcutil 1249 100
3. jstack
jstack用于生成java虚拟机当前时刻的线程快照,主要目的是定位线程出现长时间停顿的原因,如线程间死锁、死循环、请求外部资源导致的长时间等待等。
语法: jstack [ option ] pid
-F 当 jstack [-l] pid 没有响应的时候强制打印栈信息
-l 长列表. 打印关于锁的附加信息,例如属于java.util.concurrent的ownable synchronizers列表.
"main" #1 prio=5 os_prio=0 tid=0x00007f243800e000 nid=0x4e2 waiting on condition [0x00007f243f1f0000]
java.lang.Thread.State: WAITING (parking)
at sun.misc.Unsafe.park(Native Method)
- parking to wait for <0x00000000f014ece0> (a java.util.concurrent.CountDownLatch$Sync)
at java.util.concurrent.locks.LockSupport.park(LockSupport.java:175)
at java.util.concurrent.locks.AbstractQueuedSynchronizer.parkAndCheckInterrupt(AbstractQueuedSynchronizer.java:836)
at java.util.concurrent.locks.AbstractQueuedSynchronizer.doAcquireSharedInterruptibly(AbstractQueuedSynchronizer.java:997)
at java.util.concurrent.locks.AbstractQueuedSynchronizer.acquireSharedInterruptibly(AbstractQueuedSynchronizer.java:1304)
at java.util.concurrent.CountDownLatch.await(CountDownLatch.java:231)
at kafka.server.KafkaServer.awaitShutdown(KafkaServer.scala:628)
at kafka.server.KafkaServerStartable.awaitShutdown(KafkaServerStartable.scala:65)
at kafka.Kafka$.main(Kafka.scala:93)
at kafka.Kafka.main(Kafka.scala)
Locked ownable synchronizers:
- None
"VM Thread" os_prio=0 tid=0x00007f2438115800 nid=0x4e8 runnable
"Gang worker#0 (Parallel GC Threads)" os_prio=0 tid=0x00007f2438025000 nid=0x4e3 runnable
"G1 Main Concurrent Mark GC Thread" os_prio=0 tid=0x00007f2438041000 nid=0x4e6 runnable
"Gang worker#0 (G1 Parallel Marking Threads)" os_prio=0 tid=0x00007f2438043000 nid=0x4e7 runnable
"G1 Concurrent Refinement Thread#0" os_prio=0 tid=0x00007f2438029000 nid=0x4e5 runnable
"G1 Concurrent Refinement Thread#1" os_prio=0 tid=0x00007f2438027800 nid=0x4e4 runnable
"VM Periodic Task Thread" os_prio=0 tid=0x00007f243851e000 nid=0x4f2 waiting on condition
JNI global references: 3032
4. jmap
打印java进程的堆内存信息。
- jmap -heap pid 查看heap的概要信息,GC使用的算法、heap的配置及wise heap的使用情况.
- jmap -histo[:live] pid 查看堆内存中的每个类的类名、实例数量、内存占用大小
- jmap -dump:live, format=b, file=fileName pid 将内存使用情况导出到文件中,再用jhat、MAT、VisualVM分析查看,以便查找内
使用jmap -heap pid查看进程堆内存使用情况,包括使用的GC算法、堆配置参数和各代中堆内存使用情况:
5. jhat
jhat 命令与jamp搭配使用,用来分析map生产的堆快存储快照。jhat内置了一个微型http/Html服务器,可以在浏览器找那个查看。不过建议尽量不用,既然有dumpt文件,可以从生产环境拉取下来,然后通过本地可视化工具来分析,这样既减轻了线上服务器压力,有可以分析的足够详尽(比如 MAT/jprofile/visualVm)等。
二、可视化工具
对jvm监控的常见可视化工具,除了jdk本身提供的Jconsole和visualVm以外,还有第三方提供的jprofilter,perfino,Yourkit,Perf4j,JProbe,MAT等。这些工具都极大的丰富了我们定位以及优化jvm方式。
这些工具的使用,网上有很多教程提供,这里就不再过多介绍了。对于VisualVm来说,比较推荐使用,它除了对jvm的侵入性比较低以外,还是jdk团队自己开发的,相信以后功能会更加丰富和完善。jprofilter对于第三方监控工具,提供的功能和可视化最为完善,目前多数ide都支持其插件,对于上线前的调试以及性能调优可以配合使用。
另外对于线上dump的heap信息,应该尽量拉去到线下用于可视化工具来分析,这样分析更详细。如果对于一些紧急的问题,必须需要通过线上监控,可以采用 VisualVm的远程功能来进行,这需要使用tool.jar下的MAT功能。