使用atop和perf分析抖动问题的方法

动问题一般都是发生在一瞬间,可能下一秒就已经不存在了。那么对于这类问题要如何定位呢?首先还是要能收集到发生问题的瞬间,相关的系统信息。

atop

对于一个问题, 先从宏观的角度来寻找问题的方向,我们可以通过安装一个atop,配置为1s粒度记录系统信息,这样当抖动发生时,可以回溯系统监控信息,从宏观角度看一下可能存在问题的是哪一个模块,比如可能是io,mem还是network等等。

yum -y install atop

安装完成后,配置采样频率为1秒:

cat /etc/sysconfig/atop 
LOGOPTS=""
LOGINTERVAL=1
LOGGENERATIONS=28
LOGPATH=/var/log/atop

启动atop服务:

service atop start

运行起来以后,atop会把系统监控信息记录到/var/log/atop目录中,当发生了抖动时,通过其中保存的log文件进行回溯:

atop -r atop_20210715

perf

查看atop可以看到系统的资源信息,通过这些能够知道可能存在问题的方向,但是光有atop可能并不足以精确定位到问题所在,因此还需要perf去抓更多的trace信息,然后对于perf来说,直接抓热点可能会对系统性能产生较大影响。这里需要考虑一种轻量级的采样方法,可以通过传入-F指定采样频率来进行perf热点采集。

perf record -g -a -F 99

在这里插入图片描述

这里会每秒钟采集99个采样点,对系统的影响可控,因此可以尝试长时间抓取信息,保证故障的时候有数据可以查看。这里还有一个问题,对于perf收集的数据是一段时间的,那么瞬间的抖动放在长时间的范围内进行统计,很可能无法体现出来问题点。那么这里就需要使用到perf的另一个功能,就是–time按照时间范围查看:

perf report --header-only
perf report --time  start,end

第一个命令可以查看当前perf抓取的数据的起始时间点和结束时间点,那么根据这个可以推算出故障发生时的时间点,再使用第二个命令截取其中的一段来进行report分析:

比如想查看,开始的1s时间,perf抓到的热点信息:

perf report --time 428090,428091

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值