线上经常遇到MQ消费速度忽高忽低,但是线下测试却没有问题。那会是哪一个问题引起的呢?因为影响MQ消费速度的因素太多了,如下因素只要任何一种出现问题,就会影响MQ消费速度。
JVM内存过高,一直在Full GC。
Redis连接堵塞,导致Redis操作一直延迟。
第三方接口响应时间过长。
服务器cpu/带宽/IO受限。
Mysql出现慢sql,查询过慢。
程序本身问题(例如异常循环)。
解决方案:
为了排除具体原因,但是线上又不能进行错误调试,所以博主只能用最笨的办法,每一行关键代码,都写上log日志,然后通过输出每一行代码的执行时间,来确定到底是哪里出错。
方案问题:
但是打印日志的方式需要修改代码,有一定的风险,修改完又需要重新发布才能生效。最重要的是,MQ消费需要跑大量的数据,大部分数据都是正常的,少部分数据是异常的,针对于这种情况,打印日志的方式就很难发现问题点。
寻求更优解:
那到底有没有这么一个工具可以不用修改任何代码,就可以排查线上问题呢?今天就给大家推送一款神器Arthas,这是阿里巴巴开源的一款性能监控工具。
当你遇到以下类似问题而束手无策时,Arthas 可以帮助你解决:
这个类从哪个 jar 包加载的?为什么会报各种类相关的 Exception?
我改的代码为什么没有执行到?难道是我没 commit?分支搞错了?
遇到问题无法在线上 debug,难道只能通过加日志再重新发布吗?
线上遇到某个用户的数据处理有问题,但线上同样无法 debug,线下无法重现!
是否有一个全局视角来查看系统的运行状况?
有什么办法可以监控到JVM的实时运行状态?
Arthas入门:
Arthas本质其实就是一个jar包,所以只需要去官网下载对应的jar就可以了,然后通过java -jar的方式启动,例如:
curl -O https://alibaba.github.io/arthas/arthas-boot.jar
java -jar arthas-boot.jar
启动成功之后可以看到Arthas启动标志,如下所示:
[INFO] Try to attach process 71560
[INFO] Attach process 71560 success.
[INFO] arthas-client connect 127.0.0.1 3658
,---. ,------. ,--------.,--. ,--. ,---. ,---.
/ O \ | .--. ''--. .--'| '--' | / O \ ' .-'| .-. || '--'.' | | | .--. || .-. |`. `-.| | | || |\ \ | | | | | || | | |.-' |
`--' `--'`--' '--' `--' `--' `--'`--' `--'`-----'
wiki: https://alibaba.github.io/arthas
version: 3.0.5.20181127201536
pid: 71560
time: 2018-11-28 19:16:24
$
Arthas也提供了Docker模式下的监控,我们只需要在DockerFile中增加如下代码,就可以嵌入Arthas了。
# copy arthas
COPY --from=hengyunabc/arthas:latest /opt/arthas /opt/arthas
MQ消费过慢终极解决方案:
针对于上面提出的问题,MQ消费速度过慢,我们可以采用trace命令来解决,例如我们可以输入:
trace -j com.fourkmiles.advertisement.service.impl.CampaignsV2ApiMethodServicelmpl getSearchTermReport '#cost > 1000'
这个命令的意思是,CampaignsV2ApiMethodServicelmpl类的getSearchTermReport方法中,打印出执行时间超过1000的方法。
如下图所示,它可以打印这个方法中每一行代码所花费的时间。
它还可以监测:线程、jvm、方法、方法执行路径、服务运行情况、反编译代码、获取方法返回值等功能,Arthas都给我们提供了方便的命令来查询这些指标。
总结:
总体来说Arthas功能还是非常强大的,对应线上bug排查可谓雪中送炭。但是Arthas本质还是一个jar服务,所以对服务器是有一定性能损耗的,在不监控的时候一定要关闭Arthas对应的服务。
官网地址:https://alibaba.github.io/arthas/install-detail.html
林老师带你学编程
微信号 : lzqcode
个人网站:wolzq.com
▇ 扫码关注我们