简介
Arthas 是一款线上监控诊断产品,通过全局视角实时查看应用 load、内存、gc、线程的状态信息,并能在不修改应用代码的情况下,对业务问题进行诊断,包括查看方法调用的出入参、异常,监测方法执行耗时,类加载信息等,大大提升线上问题排查效率。
Arthas(阿尔萨斯)能为你做什么?
Arthas
是 Alibaba 开源的 Java 诊断工具,深受开发者喜爱。
当你遇到以下类似问题而束手无策时,Arthas
可以帮助你解决:
- 这个类从哪个 jar 包加载的?为什么会报各种类相关的 Exception?
- 我改的代码为什么没有执行到?难道是我没 commit?分支搞错了?
- 遇到问题无法在线上 debug,难道只能通过加日志再重新发布吗?
- 线上遇到某个用户的数据处理有问题,但线上同样无法 debug,线下无法重现!
- 是否有一个全局视角来查看系统的运行状况?
- 有什么办法可以监控到 JVM 的实时运行状态?
- 怎么快速定位应用的热点,生成火焰图?
- 怎样直接从 JVM 内查找某个类的实例?
Arthas
支持 JDK 6+,支持 Linux/Mac/Windows,采用命令行交互模式,同时提供丰富的 Tab
自动补全功能,进一步方便进行问题的定位和诊断。
docker容器中运行Arthas
把 Arthas 安装到基础镜像里
可以很简单把 Arthas 安装到你的 Docker 镜像里。
FROM openjdk:8-jdk-alpine
# copy arthas
COPY --from=hengyunabc/arthas:latest /opt/arthas /opt/arthas
容器中启动
#进入容器
docker exec -it ${containerId} /bin/bash
#在容器中启动arthas
java -jar /opt/arthas/arthas-boot.jar
选择1
使用arthas idea plugin,针对这 8 个问题给出的详细解决方案
优先使用arthas idea plugin上的功能,如果arthas idea plugin不支持则自己编写arthas指令
安装arthas idea plugin插件
注:以下演示以 arthas-plugin-demo为例
问题 1:这个类从哪个 jar 包加载的?为什么会报各种类相关的 Exception?
这个问题我经常在处理各种**「依赖冲突」**的时候遇到,有一些类的完全名称是一模一样,通过常规的办法无法解决类具体从哪个 jar 包加载。
在arthas中执行,获取 classLoaderHash,这个值在后面需要用到。
通过 classloader
查看 class 文件来自哪个 jar 包
❝
使用
cls
命令可以清空命令行,这个简单的命令官方文档居然找不到。。。❞
❝
注意
classloader -c
后面的值填上面第一步中获取到的 Hash 值,class 文件路径使用’/'分割,且必须以.class 结尾。❞
[arthas@29120]$ classloader -c 23481861 -r com/wangji92/arthas/plugin/demo/controller/CommonController.class
file:/Users/tong/Desktop/library/arthas-plugin-demo/target/classes/com/wangji92/arthas/plugin/demo/controller/CommonController.class
Affect(row-cnt:1) cost in 0 ms.
上面是显示 class 文件路径的,如果 class 文件来自 jar 包,可以显示 jar 包路径,例如官方文档给的例子:
$ classloader -c 23481861 -r java/lang/String.class
jar:file:/Library/Java/JavaVirtualMachines/jdk1.8.0_60.jdk/Contents/Home/jre/lib/rt.jar!/java/lang/String.class
问题 2:我改的代码为什么没有执行到?难道是我没 commit?分支搞错了?
推荐使用 watch
和 tt
命令,非常好用。
这两个命令都是用来查看方法调用过程的,不同的是 watch
命令是调用一次打印一次方法的调用情况,而 tt
命令可以先生成一个不断增加的调用列表,然后指定其中某一项进行观测
watch操作:
tt操作:
通过 Decompile Class Had 可以查看源代码。
问题 3:遇到问题无法在线上 debug,难道只能通过加日志再重新发布吗?
通过上面问题 2 的 watch
和 tt
命令可以查看方法调用情况。
此外,可以通过 redefine
命令**「热替换」**线上的代码,注意应用重启之后会失效,这在某些紧急情况下会有奇效。
arthas idea plugin插件热更新存在问题,具体方案可参考:记一次使用 Arthas 热更新线上代码
问题 4:线上遇到某个用户的数据处理有问题,但线上同样无法 debug,线下无法重现!
这个问题没有完美的解决办法
参考一下问题 2 和问题 3的解决方案
推荐使用 tt
命令并将命令行返回结果输出到一个文件中,后续可以选择异常的一行记录使用 tt -i
命令进行深入的分析。
tee
指令会从标准输入设备读取数据,将其内容输出到标准输出设备,同时保存成文件。
tee命令
tt -t com.wangji92.arthas.plugin.demo.controller.CommonController userFastJson -n 5 | tee /Users/tong/Downloads/log1
此外还可以使用 monitor
命令统计方法调用成功失败情况。
monitor com.wangji92.arthas.plugin.demo.controller.CommonController userFastJson -n 10 --cycle 10 | tee /Users/tong/Downloads/log1
问题 5:是否有一个全局视角来查看系统的运行状况?
使用 dashboard
命令可以查看当前系统的实时数据面板, 当运行在Ali-tomcat时,会显示当前tomcat的实时信息,如HTTP请求的qps, rt, 错误数, 线程池信息等等。
问题 6:有什么办法可以监控到JVM的实时运行状态?
使用 jvm
命令可以查看 JVM 的实时运行状态。
问题 7:怎么快速定位应用的热点,生成火焰图?
profiler
命令支持生成应用热点的火焰图。本质上是通过不断的采样,然后把收集到的采样结果生成火焰图。
问题 8:怎样直接从JVM内查找某个类的实例?
使用 vmtool
可以达成目的
查找所有的spring beans名字:
调用commonController.getRandomInteger()
函数:
vmtool --action getInstances --className org.springframework.context.ApplicationContext --express 'instances[0].getBean("commonController").getRandomInteger()'
vmtool 还有个不错的功能,可以**「强制进行GC」**,这在某些生产环境内存紧张的情况下有奇效。
vmtool --action forceGc
其他重要指令
trace -E
trace命令只会trace匹配到的函数里的子调用,并不会向下trace多层。因为trace是代价比较贵的,多层trace可能会导致最终要trace的类和函数非常多。因此Arthas 官方支持 trace -E 特殊获取多个,该插件支持一下trace -E。
命令
trace -E com.wangji92.arthas.plugin.demo.controller.CommonController|com.wangji92.arthas.plugin.demo.service.ArthasTestService traceE|doTraceE -n 5 '1==1'
stack
提示
输出当前方法被调用的调用路径
附录
Arthas命令大全
arthas idea plugin相关功能
参考文献:Arthas官方文档