JVM GUI可视化监控及诊断工具

最新推荐文章于 2024-09-14 07:03:47 发布

Please Sit Down

最新推荐文章于 2024-09-14 07:03:47 发布

阅读量856

点赞数

分类专栏： JVM Java 文章标签： jvm linux 运维

本文链接：https://blog.csdn.net/qq_36942720/article/details/134848407

版权

Java 同时被 2 个专栏收录

66 篇文章 6 订阅

订阅专栏

JVM

12 篇文章 0 订阅

订阅专栏

工具既述

使用命令行工具或组合能帮您获取目标Java应用性能相关的基础信息，但它们存在下列局限：

无法获取方法级别的分析数据，如方法间的调用关系、各方法的调用次数和调用时间等（这对定位应用性能瓶颈至关重要）。
要求用户登录到目标 Java 应用所在的宿主机上，使用起来不是很方便。
分析数据通过终端输出，结果展示不够直观。

为此，JDK提供了一些内存泄漏的分析工具，如jconsole，jvisualvm等，用于辅助开发人员定位问题，但是这些工具很多时候并不足以满足快速定位的需求。所以这里我们介绍的工具相对多一些、丰富一些。

图形化综合诊断工具

JDK自带的工具
- jconsole：JDK自带的可视化监控工具。查看Java应用程序的运行概况、监控堆信息、永久区（或元空间）使用情况、类加载情况等
  - >位置：jdk\bin\jconsole.exe
- Visual VM：Visual VM是一个工具，它提供了一个可视界面，用于查看Java虚拟机上运行的基于Java技术的应用程序的详细信息。
  - >位置：jdk\bin\jvisualvm.exe
- JMC：Java Mission Control，内置Java Flight Recorder。能够以极低的性能开销收集Java虚拟机的性能数据。
第三方工具
- MAT：MAT(Memory Analyzer Tool)是基于Eclipse的内存分析工具，是一个快速、功能丰富的Java heap分析工具，它可以帮助我们查找内存泄漏和减少内存消耗
  - >Eclipse的插件形式
- JProfiler：商业软件，需要付费。功能强大。
  - > 与 VisualVM类似
- Arthas：Alibaba开源的Java诊断工具。深受开发者喜爱。
- Btrace：Java运行时追踪工具。可以在不停机的情况下，跟踪指定的方法调用、构造函数调用和系统内存等信息。

jConsole

从Java5开始，在JDK中自带的java监控和管理控制台。

用于对JVM中内存、线程和类等的监控，是一个基于JMX(java management extensions)的GUI性能监控工具。

官方教程：https://docs.oracle.com/javase/7/docs/technotes/guides/management/jconsole.html

启动：jdk/bin目录下，启动jconsole.exe命令即可；不需要使用jps命令来查间

三种连接方式：

Local：使用JConsole连接一个正在本地系统运行的JVM，并且执行程序的和运行JConsole的需要是同一个用户。JConsole使用文件系统的授权通过RMI连接器连接到平台的MBean服务器上。这种从本地连接的监控能力只有Sun的JDK具有。

Remote：使用下面的URL通过RM连接器连接到一个MX代理，service:jmx:rmi:///jndi/rmi://hostName:portNum/jmxrmi。JConsole为建立连接，需要在环境变量中设置mx.remote.credentials:来指定用户名和密码，从而进行授权。

Advanced：使用一个特殊的URL连接JMX代理。一股情况使用自己定制的连接器而不是RMI提供的连接器来连接JMX代理，或者是一个使用JDK1.4的实现了JMX和JMX Rmote的应用。

主要作用：监控内存、监控线程、监控死锁、类加载与虚拟机信息

Visual VM

描述：

Visual VM是一个功能强大的多合一故障诊断和性能监控的可视化工具。
它集成了多个JDK命令行工具，使用Visual VM可用于显示虚拟机进程及进程的配置和环境信息(jps,jinfo)，监视应用程序的CPU、GC、堆、方法区及线程的信息(jstat、jstack)等，甚至代替JConsole。
在JDK 6 Update 7以后，Visual VM便作为JDK的一部分发布（VisualVM 在JDK/bin目录下），即：它完全免费。
此外，Visual VM也可以作为独立的软件安装

首页：VisualVM: Home

安装：

Visual VM的一大特点是支持插件扩展，并且插件安装非常方便。我们既可以通过离线下载插件文件*.nbm，然后在Plugin对话框的已下载页面下，添加已下载的插件。也可以在可用插件页面下，在线安装插件。（这里建议安装上：VisualGC）

插件地址：VisualVM: Plugins Centers

IDEA安装VisualVM Launcher插件：Preferences --> Plugins --> 搜索VisualVM Launcher，安装重启即可。

① 在IDEA中安装插件：

② 配置Idea VisualVM Launcher插件：

连接方式：

本地连接：监控本地ava进程的CPU、类、线程等

远程连接：

1-确定远程服务器的ip地址

2-添加JMX（通过JMX技术具体监控远端服务器哪个Java进程）

3-修改bin/catalina.sh文件，连接远程的tomcat

4-在.../conf中添加jmxremote.access和jmxremote.password文件

5-将服务器地址改为公网ip地址

6-设置阿里云安全策路和防火墙策路

7-启动tomcat，查看tomcat启动日志和端口监听

8-JMX中输入端口号、用户名、密码登录

主要功能：

1-生成/读取堆内存快照

2-查看JVM参数和系统属性

3-查看运行中的虚拟机进程

4-生成/读取线程快照

5-程序资源的实时监控

6-其他功能：JMX代理连接、远程环境监控、CPU分析和内存分析

eclipse MAT

概述：

MAT(Memory Analyzer Tool)工具是一款功能强大的Java堆内存分析器。可以用于查找内存泄漏以及查看内存消耗情况。

MAT是基于Eclipse开发的，不仅可以单独使用，还可以作为插件的形式嵌入在Eclipse中使用。是一款免费的性能分析工具，使用起来非常方便。大家可以在https://www.eclipse.org/mat/downloads.php下载并使用MAT。

只要确保机器上装有JDK并配置好相关的环境变量，MAT可正常启动。

还可以在Eclipse中以插件的方式安装：

获取堆dump文件：

dump文件内容：MAT可以分析heap dump文件。在进行内存分析时，只要获得了反映当前设备内存映像的hprof文件，通过MAT打开就可以直观地看到当前的内存信息。

一般说来，这些内存信息包含：

所有的对象信息，包括对象实例、成员变量、存储于栈中的基本类型值和存储于堆中的其他对象的引用值。
所有的类信息，包括classloader、类名称、父类、静态变量等
GCRoot到所有的这些对象的引用路径
线程信息，包括线程的调用栈及此线程的线程局部变量（TLS）

两点说明：

说明1（缺点）：MAT 不是一个万能工具，它并不能处理所有类型的堆存储文件。但是比较主流的厂家和格式，例如 Sun, HP, SAP 所采用的 HPROF 二进制堆存储文件，以及 IBM 的 PHD 堆存储文件等都能被很好的解析。

说明2：最吸引人的还是能够快速为开发人员生成内存泄漏报表，方便定位问题和分析问题。虽然MAT有如此强大的功能，但是内存分析也没有简单到一键完成的程度，很多内存问题还是需要我们从MAT展现给我们的信息当中通过经验和直觉来判断才能发现。

获取dump文件：

方法一：通过 jmap工具生成，可以生成任意一个java进程的dump文件；

方法二：通过配置JVM参数生成。

选项"-XX:+HeapDumpOnOutOfMemoryError" 或 "-XX:+HeapDumpBeforeFullGC"
选项"-XX:HeapDumpPath"所代表的含义就是当程序出现OutofMemory时，将会在相应的目录下生成一份dump文件。如果不指定选项“-XX:HeapDumpPath”则在当前目录下生成dump文件。

对比：考虑到生产环境中几乎不可能在线对其进行分析，大都是采用离线分析，因此使用jmap+MAT工具是最常见的组合。

方法三：使用VisualVM可以导出堆dump文件

方法四：使用MAT既可以打开一个已有的堆快照，也可以通过MAT直接从活动Java程序中导出堆快照。该功能将借助jps列出当前正在运行的 Java 进程，以供选择并获取快照。

分析堆dump文件：

histogram：展示了各个类的实例数目以及这些实例的Shallow heap或Retainedheap的总和。MAT 的直方图和jmap的-histo子命令一样，都能够展示各个类的实例数目以及这些实例的 Shallow heap 总和。但是，MAT 的直方图还能够计算 Retained heap，并支持基于实例数目或 Retained heap 的排序方式（默认为 Shallow heap）。此外，MAT 还可以将直方图中的类按照超类、类加载器或者包名分组。当选中某个类时，MAT 界面左上角的 Inspector 窗口将展示该类的 Class 实例的相关信息，如类加载器等。

thread overview：查看系统中的Java线程、查看局部变量的信息

获得对象相互引用的关系：with outgoing references、with incoming references

浅堆与深堆：

shallow heap：浅堆(Shallow Heap)是指一个对象所消耗的内存。在32位系统中，一个对象引用会占据 4个字节，一个int类型会占据4个字节，long型变量会占据8个字节，每个对象头需要占用8 个字节。根据堆快照格式不同，对象的大小可能会向8字节进行对齐。以String为例：2个int值共占8字节，对象引用占用4字节，对象头8字节，合计20字节，向8字节对齐，故占24字节。（jdk7中）

这24字节为String对象的浅堆大小。它与String的value实际取值无关，无论字符串长度如何，浅堆大小始终是24字节。

retained heap：

保留集(Retained Set)：对象A的保留集指当对象A被垃圾回收后，可以被释放的所有的对象集合(包括对象A本身)，即对象A的保留集可以被认为是只能通过对象A被直接或间接访问到的所有对象的集合。通俗地说，就是指仅被对象A所持有的对象的集合。

深堆(Retained Heap)：深堆是指对象的保留集中所有的对象的浅堆大小之和。

注意：浅堆指对象本身占用的内存，不包括其内部引用对象的大小。一个对象的深堆指只能通过该对象访问到的(直接或间接)所有对象的浅堆之和，即对象被回收后，可以释放的真实空间。

补充：对象实际大小：另外一个常用的概念是对象的实际大小。这里，对象的实际大小定义为一个对象所能触及的所有对象的浅堆大小之和，也就是通常意义上我们说的对象大小。与深堆相比，似乎这个在日常开发中更为直观和被人接受，但实际上，这个概念和垃圾回收无关。下图显示了一个简单的对象引用关系图，对象A引用了C和D，对象B引用了C和E。那么对象A的浅堆大小只是A本身，不含C和D，而A的实际大小为A、C、D三者之和。而A的深堆大小为A与D之和，由于对象C还可以通过对象B访问到，因此不在对象A的深堆范围内。

练习：看图理解Retained Size

上图中，GC Roots直接引用了A和B两个对象。A对象的Retained Size=A对象的Shallow Size。B对象的Retained Size=B对象的Shallow Size + C对象的Shallow Size。这里不包括D对象，因为D对象被GC Roots直接引用。如果GC Roots不引用D对象呢？

此时,B对象的Retained Size=B对象的Shallow Size + C对象的Shallow Size + D对象Shallow Size。

案例分析：StudentTrace：

考虑Lily同学：15 个 webpage，每个对应152个字节 15 * 152 = 2280字节 -->即为elementData的实际大小。关心的是elementData的深堆1288是如何计算出来的？能被7整除，且能被3整除，以及能被7整除，且能被5整除的数值有：0，21,42,63,84,35,70 共7个数。7 * 152 = 1064字节；2280 - 1064 + 72 = 1288字节！这72个字节是什么？15个elementData的元素 * 4字节 = 60字节；60 + 8个对象头的字节数 + 4字节 = 72字节。

支配树：支配树的概念源自图论。MAT提供了一个称为支配树（Dominator Tree）的对象图。支配树体现了对象实例间的支配关系。在对象引用图中，所有指向对象B的路径都经过对象A，则认为对象A支配对象B。如果对象A是离对象B最近的一个支配对象，则认为对象A为对象B的直接支配者。支配树是基于对象间的引用图所建立的，它有以下基本性质：

对象A的子树（所有被对象A支配的对象集合）表示对象A的保留集（retained set），即深堆。
如果对象A支配对象B，那么对象A的直接支配者也支配对象B。
支配树的边与对象引用图的边不直接对应。

如下图所示：左图表示对象引用图，右图表示左图所对应的支配树。对象A和B由根对象直接支配，由于在到对象C的路径中，可以经过A，也可以经过B，因此对象C的直接支配者也是根对象。对象F与对象D相互引用，因为到对象F的所有路径必然经过对象D，因此，对象D是对象F的直接支配者。而到对象D的所有路径中，必然经过对象C，即使是从对象F到对象D的引用，从根节点出发，也是经过对象C的，所以，对象D的直接支配者为对象C。

同理，对象E支配对象G。到达对象H的可以通过对象D，也可以通过对象E，因此对象D和E都不能支配对象H，而经过对象C既可以到达D也可以到达E，因此对象C为对象H的直接支配者。

在MAT中，单击工具栏上的对象支配树按钮，可以打开对象支配树视图。

下图显示了对象支配树视图的一部分。该截图显示部分Lily学生的history队列的直接支配对象。即当Lily对象被回收，也会一并回收的所有对象。显然能被3或者5整除的网页不会出现在该列表中，因为它们同时被另外两名学生对象引用。

案例：Tomcat堆溢出分析：

说明：Tomcat是最常用的Java Servlet容器之一，同时也可以当做单独的Web服务器使用。Tomcat本身使用Java实现，并运行于Java虚拟机之上。在大规模请求时，Tomcat有可能会因为无法承受压力而发生内存溢出错误。这里根据一个被压垮的Tomcat的堆快照文件，来分析Tomcat在崩溃时的内部情况。

分析过程：

图1：

图2：

图3：sessions对象，它占用了约17MB空间

图4：可以看到sessions对象为ConcurrentHashMap，其内部分为16个Segment。从深堆大小看，每个Segment都比较平均，大约为1MB，合计17MB。

图5：

图6：当前堆中含有9941个session，并且每一个session的深堆为1592字节，合计约15MB，达到当前堆大小的50%。

图7：

图8：

根据当前的session总数，可以计算每秒的平均压力为：9941/(1403324677648-1403324645728)*1000=311次/秒。由此推断，在发生Tomcat堆溢出时，Tomcat在连续30秒的时间内，平均每秒接收了约311次不同客户端的请求，创建了合计9941个session。

JProfiler

基本概述

介绍

在运行Java的时候有时候想测试运行时占用内存情况，这时候就需要使用测试工具查看了。在eclipse里面有 Eclipse Memory Analyzer tool(MAT)插件可以测试，而在IDEA中也有这么一个插件，就是JProfiler。

JProfiler 是由 ej-technologies 公司开发的一款 Java 应用性能诊断工具。功能强大，但是收费。

官网下载地址：https://www.ej-technologies.com/products/jprofiler/overview.html

特点

使用方便、界面操作友好（简单且强大）
对被分析的应用影响小（提供模板）
CPU,Thread,Memory分析功能尤其强大
支持对jdbc,noSql, jsp, servlet, socket等进行分析
支持多种模式(离线，在线)的分析
支持监控本地、远程的JVM
跨平台,拥有多种操作系统的安装版本

主要功能

1-方法调用：对方法调用的分析可以帮助您了解应用程序正在做什么，并找到提高其性能的方法

2-内存分配：通过分析堆上对象、引用链和垃圾收集能帮您修复内存泄漏问题，优化内存使用

3-线程和锁：JProfiler提供多种针对线程和锁的分析视图助您发现多线程问题

4-高级子系统：许多性能问题都发生在更高的语义级别上。例如，对于心BC调用，您可能希望找出执行最慢的SQL语句。JProfiler支持对这些子系统进行集成分析

安装与配置

下载：ej-technologies - Java APM, Java Profiler, Java Installer Builder

安装后，直接启动bin目录下jprofiler.exe命令即可

JProfiler中配置IDEA

选择IDEA 2019

IDEA集成JProfiler

一、安装分为在线安装和离线安装两种方式

方式一：直接在IDEA上下载File–Settings–plugins–Browse repositories ，找到jprofiler然后点击安装。

看到如下图片则说明安装完成

方式二：从官网下载插件

官方下载地址：https://plugins.jetbrains.com/plugin/253-jprofiler

找到对应的版本下载就行。然后把从下载的压缩包解压出来的JProfiler文件夹，copy到IDEA自定义插件目录，默认路径：C:\Users\Administrator.IntelliJIdea2017.2\config\plugins

二、安装完之后，还不能使用，如果不配置OK的话，会一直报错的。

然后启动的时候，就可以使用这个 jprofiler 的插件启动，监测了。

启动项目的时候，他会自动调用你安装的客户端。

具体使用

数据采集方式

JProfier数据采集方式分为两种：Sampling(样本采集)和Instrumentation（重构模式）

Instrumentation: 这是JProfiler全功能模式。在class加载之前，JProfier把相关功能代码写入到需要分析的class的bytecode中，对正在运行的jvm有一定影响。
- 优点: 功能强大。在此设置中,调用堆栈信息是准确的。
- 缺点：若要分析的class较多,则对应用的性能影响较大,CPU开销可能很高(取决于Filter的控制)。因此使用此模式一般配合Filter使用,只对特定的类或包进行分析。
Sampling: 类似于样本统计, 每隔一定时间(5ms)将每个线程栈中方法栈中的信息统计出来。
- 优点：对CPU的开销非常低，对应用影响小(即使你不配置任何Filter)
- 缺点：一些数据/特性不能提供(例如:方法的调用次数、执行时间)

注: JProfiler本身没有指出数据的采集类型，这里的采集类型是针对方法调用的采集类型。因为JProfiler的绝大多数核心功能都依赖方法调用采集的数据, 所以可以直接认为是JProfiler的数据采集类型。

遥感监测Telemetries

遥感监测 Telemetries （查看JVM的运行信息）

整体视图 Overview：显示堆内存、cpu、线程以及GC等活动视图
内存 Memory：显示一张关于内存变化的活动时间表。
记录的对象 Recorded objects：显示一张关于活动对象与数组的图表的活动时间表。
记录吞吐量 Record Throughput：显示一段时间累计的JVM生产和释放的活动时间表。
垃圾回收活动 GC Activity：显示一张关于垃圾回收活动的活动时间表。
类 Classes：显示一个与已装载类的图表的活动时间表。
线程 Threads：显示一个与动态线程图表的活动时间表
CPU负载 CPU Load：显示一段时间中CPU的负载图表。

内存视图Live Memory

Live memory 内存剖析：class/class instance的相关信息。例如对象的个数，大小，对象创建的方法执行栈，对象创建的热点。

所有对象 All Objects

显示所有加载的类的列表和在堆上分配的实例数。只有Java 1.5 (JVMTI)才会显示此视图。

记录对象 Record Objects

查看特定时间段对象的分配，并记录分配的调用堆栈。

分配访问树 Allocation Call Tree

显示一棵请求树或者方法、类、包或对已选择类有带注释的分配信息的J2EE组件。

分配热点 Allocation Hot Spots

显示一个列表，包括方法、类、包或分配已选类的J2EE组件。你可以标注当前值并且显示差异值。对于每个热点都可以显示它的跟踪记录树。

类追踪器 Class Tracker

类跟踪视图可以包含任意数量的图表，显示选定的类和包的实例与时间。

分析：内存中的对象的情况

> 频繁创建的Java对象：死循环、循环次数过多

> 存在大的对象：读取文件时，byte[]应该边读边写。-->如果长时间不写出的话，导致byte[]过大

>存在内存泄漏

堆遍历heap walker

Heap walker 堆遍历：对一定时间内收集的内存对像信息进行静态分析，功能强大且使用。包含对象的outgoing reference, incoming reference, biggest object等。

类 Classes

显示所有类和它们的实例，可以右击具体的类"Used Selected Instance"实现进一步跟踪。

分配 Allocations

为所有记录对象显示分配树和分配热点。

索引 References

为单个对象和“显示到垃圾回收根目录的路径”提供索引图的显示功能。还能提供合并输入视图和输出视图的功能。

时间 Time

显示一个对已记录对象的解决时间的柱状图。

检查 Inspections

显示了一个数量的操作，将分析当前对象集在某种条件下的子集，实质是一个筛选的过程。

图表 Graph

你需要在references视图和biggest视图手动添加对象到图表，它可以显示对象的传入和传出引用，能方便的找到垃圾收集器根源。

Ps：在工具栏点击"Go To Start"可以使堆内存重新计数，也就是回到初始状态。

cpu视图cpu views

JProfiler 提供不同的方法来记录访问树以优化性能和细节。线程或者线程组以及线程状况可以被所有的视图选择。所有的视图都可以聚集到方法、类、包或J2EE组件等不同层上。

访问树 Call Tree

显示一个积累的自顶向下的树，树中包含所有在JVM中已记录的访问队列。JDBC,JMS和JNDI服务请求都被注释在请求树中。请求树可以根据Servlet和JSP对URL的不同需要进行拆分。

热点 Hot Spots

显示消耗时间最多的方法的列表。对每个热点都能够显示回溯树。该热点可以按照方法请求，JDBC，JMS和JNDI服务请求以及按照URL请求来进行计算。

访问图 Call Graph

显示一个从已选方法、类、包或J2EE组件开始的访问队列的图。

方法统计 Method Statistis

显示一段时间内记录的方法的调用时间细节。

线程视图threads

JProfiler通过对线程历史的监控判断其运行状态，并监控是否有线程阻塞产生，还能将一个线程所管理的方法以树状形式呈现。对线程剖析。

线程历史 Thread History

显示一个与线程活动和线程状态在一起的活动时间表。

线程监控 Thread Monitor

显示一个列表，包括所有的活动线程以及它们目前的活动状况。

线程转储 Thread Dumps

显示所有线程的堆栈跟踪。

线程分析主要关心三个方面：

1. web容器的线程最大数。比如：Tomcat的线程容量应该略大于最大并发数。

2. 线程阻塞

3. 线程死锁

监视器&锁 Monitors&locks

监控和锁 Monitors & Locks 所有线程持有锁的情况以及锁的信息。

观察JVM的内部线程并查看状态：

死锁探测图表 Current Locking Graph :显示JVM中的当前死锁图表。
目前使用的监测器 Current Monitors :显示目前使用的监测器并且包括它们的关联线程。
锁定历史图表 Locking History Graph :显示记录在JVM中的锁定历史。
历史检测记录 Monitor History :显示重大的等待事件和阻塞事件的历史记录。
监控器使用统计 Monitor Usage Statistics :显示分组监测，线程和监测类的统计监测数据。

案例分析

案例1：

/**
 * 功能演示测试
 */
public class JProfilerTest {
    static HashMap<Integer,Object> map = new HashMap<>();
    static int init = 1;
    public static void main(String[] args) {
        while (true){
            ArrayList list = new ArrayList();
            for (int i = 0; i < 500; i++) {
                Data data = new Data();
                list.add(data);
            }
            try {
                TimeUnit.MILLISECONDS.sleep(500);
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
        }
    }
}
class Data{
    private int size = 10;
    private byte[] buffer = new byte[1024 * 1024];//10kb
    private String info = "hello,atguigu";
}

案例2：

package com.atguigu.jprofiler;

import java.lang.reflect.Array;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.concurrent.TimeUnit;

public class MemoryLeak {

    public static void main(String[] args) {
        while (true) {
            ArrayList beanList = new ArrayList();
            for (int i = 0; i < 500; i++) {
                Bean data = new Bean();
                data.list.add(new byte[1024 * 10]);
                beanList.add(data);
            }
            try {
                TimeUnit.MILLISECONDS.sleep(500);
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
        }
    }

}

class Bean {
    int size = 10;
    String info = "hello,atguigu";
    static ArrayList list = new ArrayList();
}

Arthas

基本概述

背暴

前面，我们介绍了jdk自带的jvisualvm等免费工具，以及商业化工具Jprofiler。

jvisualvm界面

Jprofiler

这两款工具在业界知名度也比较高，他们的优点是可以图形界面上看到各维度的性能数据，使用者根据这些数据进行综合分析，然后判断哪里出现了性能问题。

但是这两款工具也有个缺点，都必须在服务端项目进程中配置相关的监控参数。然后工具通过远程连接到项目进程，获取相关的数据。这样就会带来一些不便，比如线上环境的网络是隔离的，本地的监控工具根本连不上线上环境。并且类似于Jprofiler这样的商业工具，是需要付费的。

那么有没有一款工具不需要远程连接，也不需要配置监控参数，同时也提供了丰富的性能监控数据呢？

今天跟大家介绍一款阿里巴巴开源的性能分析神器Arthas（阿尔萨斯）

概述

Arthas（阿尔萨斯）是Alibaba开源的Java诊断工具，深受开发者喜爱。在线排查问题，无需重启；动态跟踪Java代码；实时监控JVM状态。

Arthas 支持JDK 6+，支持Linux/Mac/Windows，采用命令行交互模式，同时提供丰富的 Tab 自动补全功能，进一步方便进行问题的定位和诊断。

当你遇到以下类似问题而束手无策时，Arthas可以帮助你解决：

这个类从哪个 jar 包加载的？为什么会报各种类相关的 Exception？
我改的代码为什么没有执行到？难道是我没 commit？分支搞错了？
遇到问题无法在线上 debug，难道只能通过加日志再重新发布吗？
线上遇到某个用户的数据处理有问题，但线上同样无法 debug，线下无法重现！
是否有一个全局视角来查看系统的运行状况？
有什么办法可以监控到JVM的实时运行状态？
怎么快速定位应用的热点，生成火焰图？

基于哪些工具开发而来

greys-anatomy: Arthas代码基于Greys二次开发而来，非常感谢Greys之前所有的工作，以及Greys原作者对Arthas提出的意见和建议！
termd: Arthas的命令行实现基于termd开发，是一款优秀的命令行程序开发框架，感谢termd提供了优秀的框架。
crash: Arthas的文本渲染功能基于crash中的文本渲染功能开发，可以从这里看到源码，感谢crash在这方面所做的优秀工作。
cli: Arthas的命令行界面基于vert.x提供的cli库进行开发，感谢vert.x在这方面做的优秀工作。
compiler Arthas里的内存编绎器代码来源
Apache Commons Net Arthas里的Telnet Client代码来源
JavaAgent：运行在 main方法之前的拦截器，它内定的方法名叫 premain ，也就是说先执行 premain 方法然后再执行 main 方法
ASM：一个通用的Java字节码操作和分析框架。它可以用于修改现有的类或直接以二进制形式动态生成类。ASM提供了一些常见的字节码转换和分析算法，可以从它们构建定制的复杂转换和代码分析工具。ASM提供了与其他Java字节码框架类似的功能，但是主要关注性能。因为它被设计和实现得尽可能小和快，所以非常适合在动态系统中使用(当然也可以以静态方式使用，例如在编译器中)

官方使用文档

官网：Redirecting...

安装与使用

安装

安装方式一：可以直接在Linux上通过命令下载

可以在官方 Github 上进行下载，如果速度较慢，可以尝试国内的码云 Gitee 下载。

github下载

wget https://alibaba.github.io/arthas/arthas-boot.jar

Gitee 下载

wget https://arthas.gitee.io/arthas-boot.jar

安装方式二：也可以在浏览器直接访问https://alibaba.github.io/arthas/arthas-boot.jar，等待下载成功后，上传到Linux服务器上。

卸载

在 Linux/Unix/Mac 平台删除下面文件：

rm -rf ~/.arthas/

rm -rf ~/logs/arthas

Windows平台直接删除user home下面的.arthas和logs/arthas目录

工程目录

arthas-agent：基于JavaAgent技术的代理

bin：一些启动脚本

arthas-boot：Java版本的一键安装启动脚本

arthas-client：telnet client代码

arthas-common：一些共用的工具类和枚举类

arthas-core：核心库，各种arthas命令的交互和实现

arthas-demo：示例代码

arthas-memorycompiler：内存编绎器代码，Fork from https://github.com/skalogs/SkaETL/tree/master/compiler

arthas-packaging：maven打包相关的

arthas-site：arthas站点

arthas-spy：编织到目标类中的各个切面

static：静态资源

arthas-testcase：测试

启动

Arthas 只是一个 java 程序，所以可以直接用 java -jar 运行。执行成功后，arthas提供了一种命令行方式的交互方式，arthas会检测当前服务器上的Java进程，并将进程列表展示出来，用户输入对应的编号（1、2、3、4…）进行选择，然后回车。

方式1：java -jar arthas-boot.jar

# 选择进程(输入[]内编号(不是PID)回车)

[INFO] arthas-boot version: 3.1.4

[INFO] Found existing java process, please choose one and hit RETURN.

* [1]: 11616 com.Arthas

[2]: 8676

[3]: 16200 org.jetbrains.jps.cmdline.Launcher

[4]: 21032 org.jetbrains.idea.maven.server.RemoteMavenServer

方式2：运行时选择 Java 进程 PID

java -jar arthas-boot.jar [PID]

查看进程

查看 PID 的方式可以通过 ps 命令，也可以通过 JDK 提供的 jps命令。

查看运行的 java 进程信息
jps -mlvV

ps -ef| grep java

筛选 java 进程信息

jps -mlvV | grep [xxx]

查看日志

cat ~/logs/arthas/arthas.log

参看帮助

java -jar arthas-boot.jar -h

web console

除了在命令行查看外，Arthas 目前还支持 Web Console。在成功启动连接进程之后就已经自动启动，可以直接访问 http://127.0.0.1:8563/ 访问，页面上的操作模式和控制台完全一样。

退出

最后一行 [arthas@7457]$，说明打开进入了监控客户端，在这里就可以执行相关命令进行查看了。

使用quit\exit：退出当前客户端

使用stop\shutdown：关闭arthas服务端,并退出所有客户端。

Java Mission Control

历史

在 Oracle 收购 Sun 之前，Oracle 的 JRockit 虚拟机提供了一款叫做 JRockit Mission Control 的虚拟机诊断工具。在Oracle收购Sun之后，Oracle公司同时拥有了Sun Hotspot和JRockit两款虚拟机。根据Oracle对于Java的战略，在今后的发展中，会将JRockit的优秀特性移植到Hotspot上。其中，一个重要的改进就是在Sun的JDK中加入了JRockit的支持。

在Oracle JDK 7u40之后，Mission Control这款工具已经绑定在Oracle JDK中发布。自 Java 11 开始，本节介绍的 JFR 已经开源。但在之前的 Java 版本，JFR 属于 Commercial Feature，需要通过 Java 虚拟机参数-XX:+UnlockCommercialFeatures开启。

如果你有兴趣请可以查看OpenJDK的Mission Control项目。

官网：GitHub - JDKMissionControl/jmc: This mirror is deprecated - please start using https://github.com/openjdk/jmc

启动

Mission Control 位于％JAVA_HOME%/ bin/jmc.exe,打开这款软件。

概述

Java Mission Control（简称 JMC）,Java官方提供的性能强劲的工具。是一个用于对 Java 应用程序进行管理、监视、概要分析和故障排除的工具套件。它包含一个 GUI 客户端，以及众多用来收集 Java 虚拟机性能数据的插件，如 JMX Console（能够访问用来存放虚拟机各个子系统运行数据的MXBeans），以及虚拟机内置的高效 profiling 工具 Java Flight Recorder（JFR）。

JMC 的另一个优点就是：采用取样，而不是传统的代码植入技术，对应用性能的影响非常非常小，完全可以开着 JMC 来做压测（唯一影响可能是 full gc 多了）。

功能：实时监控VM运行时的状态

如果是远程服务器，使用前要开 JMX。

-Dcom.sun.management.jmxremote.port=${YOUR PORT}

-Dcom.sun.management.jmxremote

-Dcom.sun.management.jmxremote.authenticate=false

-Dcom.sun.management.jmxremote.ssl=false

-Djava.rmi.server.hostname=${YOUR HOST/IP}

方式：文件 -> 连接 -> 创建新连接，填入上面 JMX 参数的 host 和 port

Mission Control的界面非常有特色，在默认的界面中，以飞机仪表的视图显示了Java堆使用率、CPU使用率和Live Set+Fragmentation。

Mission Control的一大特点是可以自由设置图标内容。比如，如果希望在飞机仪表面板再增加一个监控项，可以单击右侧的添加按钮“+”，按需添加各种统计图表。

“触发器” tab 可以根据 CPU、线程等信息，设定一定的阈值，来触发报警。
“内存” tab 提供 heap 和 GC 的信息。可以关注 GC次数、时间以及随着 GC 发生 heap 的内存变化情况，以此来调整 jvm 参数。
“线程” tab 可以关注每条线程所占的CPU、死锁情况以及线程堆栈信息。

Java Flight Recorder

Java Flight Recorder 是 JMC 的其中一个组件。Java Flight Recorder能够以极低的性能开销收集 Java 虚拟机的性能数据。JFR 的性能开销很小，在默认配置下平均低于 1%。与其他工具相比，JFR 能够直接访问虚拟机内的数据，并且不会影响虚拟机的优化。因此，它非常适用于生产环境下满负荷运行的 Java 程序。

Java Flight Recorder和JDK Mission Control共同创建了一个完整的工具链。JDK Mission Control可对Java Flight Recorder连续收集低水平和详细的运行时信息进行高效，详细的分析。

事件类型：当启用时，JFR 将记录运行过程中发生的一系列事件。其中包括 Java 层面的事件，如线程事件、锁事件，以及 Java 虚拟机内部的事件，如新建对象、垃圾回收和即时编译事件。

按照发生时机以及持续时间来划分，JFR 的事件共有四种类型，它们分别为以下四种。

瞬时事件（Instant Event），用户关心的是它们发生与否，例如异常、线程启动事件。
持续事件（Duration Event），用户关心的是它们的持续时间，例如垃圾回收事件。
计时事件（Timed Event），是时长超出指定阈值的持续事件。
取样事件（Sample Event），是周期性取样的事件。

取样事件的其中一个常见例子便是方法抽样（Method Sampling），即每隔一段时间统计各个线程的栈轨迹。如果在这些抽样取得的栈轨迹中存在一个反复出现的方法，那么我们可以推测该方法是热点方法。

启动方式：

方式1：使用-XX:StartFlightRecording=参数

第一种是在运行目标 Java 程序时添加-XX:StartFlightRecording=参数。比如：下面命令中，JFR 将会在 Java 虚拟机启动 5s 后（对应delay=5s）收集数据，持续 20s（对应duration=20s）。当收集完毕后，JFR 会将收集得到的数据保存至指定的文件中（对应filename=myrecording.jfr）

示例：java -XX:StartFlightRecording=delay=5s,duration=20s,filename=myrecording.jfr,settings=profile MyApp

由于 JFR 将持续收集数据，如果不加以限制，那么 JFR 可能会填满硬盘的所有空间。因此，我们有必要对这种模式下所收集的数据进行限制。

比如：java -XX:StartFlightRecording=maxage=10m,maxsize=100m,name=SomeLabel MyApp

方式2：使用jcmd的JFR.*子命令

通过jcmd来让 JFR 开始收集数据、停止收集数据，或者保存所收集的数据，对应的子命令分别为JFR.start，JFR.stop，以及JFR.dump。

命令：jcmd <PID> JFR.start settings=profile maxage=10m maxsize=150m name=SomeLabel

上述命令运行过后，目标进程中的 JFR 已经开始收集数据。此时，我们可以通过下述命令来导出已经收集到的数据：

命令：jcmd <PID> JFR.dump name=SomeLabel filename=myrecording.jfr

最后，我们可以通过下述命令关闭目标进程中的 JFR：

命令：jcmd <PID> JFR.stop name=SomeLabel

方式3：JMC的JFR插件

Java Flight Recorder取样分析：

要采用取样，必须先添加参数：

-XX:+UnlockCommercialFeatures
-XX:+FlightRecorder

否则报错：

取样时间默认 1 分钟，可自行按需调整，事件设置选为 profiling，然后可以设置取样 profile 哪些信息，比如：

加上对象数量的统计：Java Virtual Machine -> GC -> Detailed -> Object Count/Object Count after GC
方法调用采样的间隔从 10ms 改为 1ms(但不能低于 1ms，否则会影响性能了): Java Virtual Machine -> Profiling -> Method Profiling Sample/Method Sampling Information
Socket 与 File 采样, 10ms 太久，但即使改为 1ms 也未必能抓住什么，可以干脆取消掉: Java Application->File Read/FileWrite/Socket Read/Socket Write

然后就开始 Profile，到时间后 Profile 结束，会自动把记录下载回来，在 JMC 中展示。

从展示信息中，我们大致可以读到内存和CPU信息、代码、线程和IO等比较重要的信息展示。

代码定位：它可以显示系统中的热点方法和占用的时间，下图显示了占用CPU时间最多的方法调用树信息。

IO详情：在IO页面，还可以看到磁盘文件的读写情况，以及网络Socket的访问情况。下图显示了在记录时间段内，程序通过Socket访问的远程主机以及数据读取次数和数据读取数量。

其它工具

Flame Graphs（火焰图）

在追求极致性能的场景下，了解你的程序运行过程中cpu在干什么很重要，火焰图就是一种非常直观的展示cpu在程序整个生命周期过程中时间分配的工具。

火焰图对于现代的程序员不应该陌生，这个工具可以非常直观的显示出调用栈中的CPU消耗瓶颈。

网上的关于java火焰图的讲解大部分来自于Brendan Gregg的博客：http://www.brendangregg.com/flamegraphs.html

火焰图，简单通过x轴横条宽度来度量时间指标，y轴代表线程栈的层次。

Tprofiler

案例：使用 JDK 自身提供的工具进行 JVM 调优可以将 TPS 由 2.5 提升到 20 (提升了 7 倍)，并准确定位系统瓶颈。系统瓶颈有：应用里静态对象不是太多、有大量的业务线程在频繁创建一些生命周期很长的临时对象，代码里有问题。那么，如何在海量业务代码里边准确定位这些性能代码？这里使用阿里开源工具 TProfiler 来定位这些性能代码，成功解决掉了 GC 过于频繁的性能瓶颈，并最终在上次优化的基础上将 TPS 再提升了4 倍，即提升到 100。

TProfiler 配置部署、远程操作、日志阅读都不太复杂，操作还是很简单的。但是其却是能够起到一针见血、立竿见影的效果，帮我们解决了 GC 过于频繁的性能瓶颈。

TProfiler 最重要的特性就是能够统计出你指定时间段内 JVM 的 top method，这些 top method 极有可能就是造成你 JVM 性能瓶颈的元凶。这是其他大多数 JVM 调优工具所不具备的，包括 JRockit Mission Control。JRokit 首席开发者 Marcus Hirt 在其私人博客《Low Overhead Method Profiling with Java Mission Control》下的评论中曾明确指出 JRMC 并不支持 TOP 方法的统计。

TProfiler的下载：https://github.com/alibaba/TProfiler

Btrace：Java运行时追踪工具

常见的动态追踪工具有BTrace、HouseMD（该项目已经停止开发）、Greys-Anatomy（国人开发，个人开发者）、Byteman（JBoss出品），注意Java运行时追踪工具并不限于这几种，但是这几个是相对比较常用的。

BTrace是SUN Kenai云计算开发平台下的一个开源项目，旨在为java提供安全可靠的动态跟踪分析工具。先看一下BTrace的官方定义：

BTrace is a safe, dynamic tracing tool for the Java platform. BTrace can be used to dynamically trace a running Java program (similar to DTrace for OpenSolaris applications and OS). BTrace dynamically instruments the classes of the target application to inject tracing code (“bytecode tracing”)。

简洁明了，大意是一个Java平台的安全的动态追踪工具。可以用来动态地追踪一个运行的Java程序。BTrace动态调整目标应用程序的类以注入跟踪代码（“字节码跟踪”）。

YourKit

JProbe

Spring Insight

补充1：再谈内存泄漏

案例1：

public class Stack {
    private Object[] elements;
    private int size = 0;
    private static final int DEFAULT_INITIAL_CAPACITY = 16;

    public Stack() {
        elements = new Object[DEFAULT_INITIAL_CAPACITY];
    }

    public void push(Object e) {
        ensureCapacity();
        elements[size++] = e;
    }

    public Object pop() {
        if (size == 0)
            throw new EmptyStackException();
        return elements[--size];
    }

    private void ensureCapacity() {
        if (elements.length == size)
            elements = Arrays.copyOf(elements, 2 * size + 1);
    }
}

分析：

上述程序并没有明显的错误，但是这段程序有一个内存泄漏，随着GC活动的增加，或者内存占用的不断增加，程序性能的降低就会表现出来，严重时可导致内存泄漏，但是这种失败情况相对较少。代码的主要问题在pop函数，下面通过这张图示展现，假设这个栈一直增长，增长后如下图所示：

当进行大量的pop操作时，由于引用未进行置空，gc是不会释放的，如下图所示

从上图中看以看出，如果栈先增长，在收缩，那么从栈中弹出的对象将不会被当作垃圾回收，即使程序不再使用栈中的这些队象，他们也不会回收，因为栈中仍然保存这对象的引用，俗称过期引用，这个内存泄露很隐蔽。

解决办法：

public Object pop() {
    if (size == 0)
        throw new EmptyStackException();
    Object result = elements[--size];
    elements[size] = null;
    return result;
}

一旦引用过期，清空这些引用，将引用置空。

案例2：

public class TestActivity extends Activity {
    private static final Object key = new Object();

    @Override
    protected void onCreate(Bundle savedInstanceState) {
        super.onCreate(savedInstanceState);
        setContentView(R.layout.activity_main);

        new Thread(){//匿名线程
            public void run() {
                synchronized (key) {
                    try {
                        key.wait();

                    } catch (InterruptedException e) {
                        e.printStackTrace();
                    }
                }
            }
        }.start();
    }
}

分析：