文章目录
玩转Arthas
关注可以查看更多粉丝专享blog~
个人感受
其实很早之前就听说过Arthas这个工具,只知道是在线诊断工具,也一直没有去了解,该怎么用?有啥用?听说好像很厉害?也一直停留在听说阶段,不知道大家有没有同感。但是在去年(2019)下半年的时候需要处理的生产环境问题越来越多,也越来越复杂,定位问题变得越来越繁琐,总结起来遇到最多的问题就是以下几点:
- 为什么单元测试同样的参数是可以的,到了生产环境却没有返回值?是我没有传进去吗?
- 为什么我的代码感觉没生效?(是不是没有发上去?还是打包有问题?肯定不是我的问题,我的代码是最棒的的!)
- 为什么接口这么慢啊?这方法几百行我要一行一行加日志打印时间(吐血…)?
- 怎么感觉这个没有调用到我的方法呀?感觉调用路径不对?生产环境又不能debug!
- 为什么我的静态变量获取不到?值对不上?
- 程序死锁了,是咋回事儿,哪里锁了?
- 内存占用好高啊,想看一下dump日志?
- …
当我看到官网简介的时候,嗯?!这不就是专门为我准备的吗?我决定玩儿一下,盘它!
官网简介
Arthas 是Alibaba开源的Java诊断工具,深受开发者喜爱。
当你遇到以下类似问题而束手无策时,Arthas可以帮助你解决:
- 这个类从哪个 jar 包加载的?为什么会报各种类相关的 Exception?
- 我改的代码为什么没有执行到?难道是我没 commit?分支搞错了?
- 遇到问题无法在线上 debug,难道只能通过加日志再重新发布吗?
- 线上遇到某个用户的数据处理有问题,但线上同样无法 debug,线下无法重现!
- 是否有一个全局视角来查看系统的运行状况?
- 有什么办法可以监控到JVM的实时运行状态?
- 怎么快速定位应用的热点,生成火焰图?
Arthas支持JDK 6+,支持Linux/Mac/Winodws,采用命令行交互模式,同时提供丰富的 Tab 自动补全功能,进一步方便进行问题的定位和诊断。
使用方式
Arthas的使用方式非常简单
下载arthas-bin.zip
直接到github releases中下载自己想要的版本,arthas-bin.zip
找到arthas-boot.jar
解压后可以看到有很多jar包,我们需要使用的就是arthas-boot.jar,因为我之前用过其他版本所以我把它修改一下名字arthas-boot-3.3.6.jar
模拟场景
大家可以看到压缩包中是有arthas-demo.jar的,但是demo里面的场景比较少,所以我这边自己模拟我们经常遇到的场景,也方便我们修改和调试。我这边就拿我前两天做Spring Boot 使用docker整合MongoDB的demo来用。模拟了最常见的一些场景,还原上面的几个点。我这边直接添加了一个Controller模拟了常规方法和死锁,然后用Arthas来排查问题,首先需要启动项目。
package com.example.mongo.controller;
import com.example.mongo.entity.UserEntity;
import com.example.mongo.service.UserService;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RequestBody;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RestController;
import java.util.Arrays;
import java.util.List;
import java.util.Objects;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import javax.annotation.Resource;
import lombok.SneakyThrows;
@RestController
@RequestMapping("arthas")
public class ArthasController {
private static ExecutorService executors = Executors.newFixedThreadPool(2);
private static String NAME = "DW";
@Resource
private UserService userService;
@SneakyThrows
@GetMapping("normal")
public List<String> normal( @RequestParam("param") Integer param ) {
if (Objects.isNull(param)) throw new IllegalArgumentException("param is null");
userService.findById(1L);
return Arrays.asList("david", "david1");
}
@GetMapping("deadlock")
public void deadlock() {
UserEntity a = new UserEntity();
UserEntity b = new UserEntity();
executors.execute(() -> {
synchronized (a) {
System.out.println(Thread.currentThread().getName() + "get A lock! start sleep");
NAME = Thread.currentThread().getName() + "1a";
try {
Thread.sleep(1000);
} catch (InterruptedException e) {
e.printStackTrace();
}
System.out.println(Thread.currentThread().getName() + "sleep end start get B lock!");
synchronized (b) {
NAME = Thread.currentThread().getName() + "1b";
System.out.println(Thread.currentThread().getName() + "get B lock!");
}
}
});
executors.execute(() -> {
synchronized (b) {
System.out.println(Thread.currentThread().getName() + "get B lock! start sleep");
NAME = Thread.currentThread().getName() + "2b";
try {
Thread.sleep(1000);
} catch (InterruptedException e) {
e.printStackTrace();
}
System.out.println(Thread.currentThread().getName() + "sleep end start get A lock!");
synchronized (a) {
System.out.println(Thread.currentThread().getName() + "get A lock!");
NAME = Thread.currentThread().getName() + "2a";
}
}
});
}
}
// userService#findById
@Override
@SneakyThrows
public UserEntity findById( Long id ) {
List<UserEntity> david = this.findByName("david");
if (!CollectionUtils.isEmpty(david)) {
david.forEach(System.out::println);
}
Thread.sleep(100);
return userRepository.findById(id).orElse(new UserEntity());
}
启动Arthas
- 启动Arthas之后会出现进程列表,找到我们的MongoApplication,编号为6,输入6回车,Arthas就启动成功。
- 可以看到INFO日志里面有一句
[INFO] arthas-client connect 127.0.0.1 3658
因为我们是本地调试所以可以直接使用浏览器访问localhost:3658
,在web console中来操作,效果如下。
【Arthas官网】
默认情况下,arthas只listen 127.0.0.1,所以如果想从远程连接,则可以使用 --target-ip参数指定listen的IP,更多参考-h的帮助说明。 注意会有安全风险,考虑下面的tunnel server的方案。
处理问题
1. 为什么单元测试同样的参数是可以的,到了生产环境却没有返回值?是我没有传进去吗?
-
这种场景下我们可以使用watch命令监控我们的目标方法,查看入参,出参和异常信息。
-
命令格式:watch <类的全限定名> <方法名> '{params, returnObj, throwExp}'
-
params如果是数组的话可以使用
params[0],params[1]
来查看,returnObj
表示返回值,throwExp
表示异常信息,如果只想看入参,只写params信息就可以,returnObj
和throwExp
也是一样。输入watch com.example.mongo.controller.ArthasController normal '{params, returnObj, throwExp}'
回车即开始监控。
-
不传参试一下
http://localhost:8080/arthas/normal?param
,报错了,param is null
。
-
传参
http://localhost:8080/arthas/normal?param=1
,入参出参都打印了,但是没有具体值,修改一下命令,watch com.example.mongo.controller.ArthasController normal '{params[0], returnObj[0], returnObj[1], throwExp}'
重新执行
-
修改命令之后效果如下:
2. 我改的代码为什么没有执行到?难道是我没 commit?分支搞错了?
两种办法:
- 把我们运行的jar包download下来反编译
- Arthas
既然主要是讲Arthas那肯定是选择Arthas啦,下次一定!
这里需要使用到jad
命令,直接对我们的目标类或者目标方法进行反编译查看。
命令格式:jad <类的全限定名>/<类的全限定名> <方法名>
- 输入
jad com.example.mongo.controller.ArthasController normal
回车,即可查看正在运行的代码到底是什么样子,是美发不上去呢,还是写bug,拒绝甩锅。由于类信息较长,就不截图了输入jad com.example.mongo.controller.ArthasController
回车即可查看。
- 类加载器
- 地址
- 方法信息
3. 为什么接口这么慢啊?这方法几百行我要一行一行加日志打印时间(吐血…)?
- trace 命令能主动搜索 class-pattern/method-pattern 对应的方法调用路径,渲染和统计整个调用链路上的所有性能开销和追踪调用链路。
命令格式:trace <类的全限定名> <方法名>
- 输入
trace com.example.mongo.controller.ArthasController normal
回车,可以看到时间主要消耗在UserService#findById()
继续追踪trace com.example.mongo.service.UserService findById
,可以看到总耗时为109ms,方法耗时综合在9ms左右,Thread.sleep(100)不会打印,这个时候对比一下代码就可以锁定具体问题了。
4. 怎么感觉这个没有调用到我的方法呀?感觉调用路径不对?生产环境又不能debug!
- 很多时候我们都知道一个方法被执行,但这个方法被执行的路径非常多,或者你根本就不知道这个方法是从那里被执行了,此时你需要的是 stack 命令。
命令格式:stack <类的全限定名> <方法名>
- 输入
stack com.example.mongo.controller.ArthasController normal
5. 为什么我的静态变量获取不到?值对不上?
- 通过getstatic命令可以方便的查看类的静态属性。
命令格式:getstatic <类的全限定名> <方法名>
- 输入
getstatic com.example.mongo.controller.ArthasController NAME
回车。
6. 程序死锁了,是咋回事儿,哪里锁了?
- 访问
http://localhost:8080/arthas/deadlock
复现死锁,现在两个线程相互等待对方释放资源。
- 这里我们需要使用
Thread
命令来查看我们的线程信息。可以看到pool-1-thread-1
和pool-1-thread-2
阻塞了,这也是为什么建议大家在使用线程池的时候一定要命名的原因,前面线程池的blog有详细讲解。传送门Davids原理探究:ThreadPoolExecutor原理。
- 我们看一下命名之后的效果,一目了然。
- 还可以使用
thread -b
直接查看block状态的线程信息,锁定原因。
- 还可以使用
thread -n <num>
查看cpu使用率最高的num个线程用于排查cpu占用高的场景,相关信息也非常详细。
7. 内存占用好高啊,想看一下dump日志?
一般在配置JVM的时候建议打开dump日志,一旦出现内存溢出方便排查,但是在内存达到报警阈值或者内存在某个版本发布之后长期处于高占用状态的时候,我们可以采用Arthas进行heapdump分析原因(类似jmap命令的heap dump功能)。
命令格式:
- dump到指定文件
heapdump <path> 示例:heapdump /tmp/dump.hprof
- 只dump live对象
heapdump --live <path> 示例:heapdump --live /tmp/dump.hprof
- dump到临时文件
heapdump 示例:heapdump
查看dump文件生成成功,由于篇幅原因,如何排查dump后面再专门做一篇blog。
总结
其实Arthas还有非常多的丰富的功能,本篇博客只是介绍了一些非常基础和我常用的,而且这些命令还有很多高级用法,大家感兴趣的可以去玩一玩。官网传送门