linux perf生成火焰图,火焰图：全局视野的Linux性能剖析

最新推荐文章于 2024-07-20 16:34:18 发布

诗无忌

最新推荐文章于 2024-07-20 16:34:18 发布

阅读量796

点赞数

文章标签： linux perf生成火焰图

原标题：火焰图：全局视野的Linux性能剖析

文章背景

日常的工作中，会收到一堆CPU使用率过高的告警邮件，遇到某台服务的 CPU被占满了，这时候我们就要去查看是什么进程将服务器的CPU资源占用满了。通常我们会通过 top 或者 htop 来快速的查看占据CPU最高的那个进程，如下图：

这里是通过一个普通的服务器做演示使用，如图所示当前服务器占用CPU最高的是一个叫做 kube-apiserver 命令运行的一个进程，该进程的PID为 25633 ,当然你可能遇到一个服务器上运行有多个服务，想快速知道占用率最高的那几个进程的话，你可以使用以下命令:

ps aux|head -1;ps -aux | sort -k3nr | head -n 10 //查看前10个最占用CPU的进程

ps aux|head -1;ps -aux | sort -k4nr | head -n 10 //查看前10个最占用内存的进程

但是通过以上的方法获取到服务器占用资源的进程之后，还是不知道CPU使用究竟耗时在哪里 ,不清楚瓶颈在哪里，此时就可以通过 Linux 系统的性能分析工具 perf 分析，分析其返回的正在消耗CPU的函数以及调用栈。然后可以通过解析 perf 采集的数据，渲染到火焰图🔥，就清楚的知道究竟占用系统CPU资源的罪魁祸首了。

在制作火焰图之前，需要先来说说这个Linux性能分析工具 perf ,该工具是一个相对简单易上手的性能分析工具，是 Performance 单词的缩写，通过其 perf 的命令选项完成系统事件的采集到解析，我们来简单的认识一下：

linux上的性能分析工具 Perf安装 perf

我目前的服务器发行版是 Ubuntu 16.04.6 LTS 因此需要先安装perf才能使用，该工具由 linux-tools-common 提供，但是它需要安装后面的依赖。

#安装

root@master:~ # apt install linux-tools-common linux-tools-4.4.0-142-generic linux-cloud-tools-4.4.0-142-generic -y

root@master:~ # perf -v #显示perf的版本

perf version 4.4.167

在安装完成时候，我们就可以对上图CPU使用率最高的进程ID为 25633 的进程进行采样分析。

首选我们采集一下该进程的调用栈信息:

root@master:~ # sudo perf record -F 99 -p 25633 -g -- sleep 30

[ perf record: Woken up 1 timesto write data ]

[ perf record: Captured and wrote 0.039 MB perf.data (120 samples) ]

这个命令会产生一个大的数据文件，取决与你采集的进程与CPU的配置，如果一台服务器有16个 CPU，每秒抽样99次，持续30秒，就得到 47,520 个调用栈，长达几十万甚至上百万行。上面的命令中， perf record 表示记录， -F 99 表示每秒99次， -p 25633 是进程号，即对哪个进程进行分析， -g 表示记录调用栈， sleep 30 则是持续30秒，参数信息可以视情况调整。生成的数据采集文件在当前目录下，名称为 perf.data 。

perf record 命令可以从高到低排列统计每个调用栈出现的百分比，显示结果如下图所示:

root@master:~ # sudo perf report -n --stdio

这样的效果对使用者来说还是不那么直观易读，这时候，火焰🔥图也就真正的派上用途了。

制作火焰🔥图

火焰🔥图并非一定就是火焰系列的颜色主题，只是通过🔥色系更能表达出含义。火焰图常见的类型有 On-CPU[1] , Off-CPU[2] , 还有 Memory[3] , Hot/Cold[4] , Differential[5] 等等. on-CPU/off-cpu 的区别就是一个是用于CPU是性能瓶颈，一个是IO是性能瓶颈，当你不知道当前的服务器的性能瓶颈究竟是什么的时候，你可以使用这两种类型进行对比，通过两种火焰图的差别是比较大的，如果两张火焰图长得差不多, 那么通常认为CPU被其它进程抢占了.

另外一种情况就是如果无法确定当前的系统瓶颈, 可以通过压测工具来确认 : 通过压测工具看看能否让CPU使用率趋于饱和, 如果能那么使用 On-CPU 火焰图, 如果不管怎么压, CPU 使用率始终上不来, 那么多半说明程序被 IO 或锁卡住了, 此时适合使用 Off-CPU 火焰图. 你可以通过压测工具进行测试，目前比较常用的就是 ab 和 wrk ，我建议尝试使用诸如 wrk[6] 之类更现代的压测工具.

如果选择 ab 的话, 那么务必记得开启 -k 选项, 以避免耗尽系统的可用端口

Github上有 Brendan D. Gregg 的 Flame Graph 工程实现了一套生成火焰图的脚本.我们可以直接克隆下来直接用。

cd&& git clonehttps://github.com/brendangregg/FlameGraph.git

生成火焰🔥图，我们一般都遵循以下流程

捕获堆栈 : 使用 perf 捕捉进程运行堆栈信息

折叠堆栈 : 对抓取的系统和程序运行每一时刻的堆栈信息进行分析组合, 将重复的堆栈累计在一起, 从而体现出负载和关键路径，通过 stackcollapse 脚本完成

生成火焰图：分析 stackcollapse 输出的堆栈信息渲染成火焰图

Flame Graph 中提供了抓取不同信息的脚本，可以按需使用。下面我们需要对捕获到的进程堆栈信息 perf.data 进行折叠，生成折叠的堆栈信息:

root@master:~ # perf -i /root/perf.data &> /root/perf.unfold

用 stackcollapse-perf.pl 将 perf 解析出的内容 perf.unfold 中的符号进行折叠

root@master:~/FlameGraph # ls

aix-perf.pl docs example-perf.svg pkgsplit-perf.pl stackcollapse-aix.pl stackcollapse-go.pl stackcollapse-ljp.awk stackcollapse-pmc.pl stackcollapse-vsprof.pl test.sh

demos example-dtrace-stacks.txt files.pl range-perf.pl stackcollapse-bpftrace.pl stackcollapse-instruments.pl stackcollapse-perf.pl stackcollapse-recursive.pl stackcollapse-vtune.pl

dev example-dtrace.svg flamegraph.pl README.md stackcollapse-elfutils.pl stackcollapse-java-exceptions.pl stackcollapse-perf-sched.awk stackcollapse-sample.awk stackcollapse-xdebug.php

difffolded.pl example-perf-stacks.txt.gz jmaps record-test.sh stackcollapse-gdb.pl stackcollapse-jstack.pl stackcollapse.pl stackcollapse-stap.pl test

root@master:~/FlameGraph # ./stackcollapse-perf.pl /root/perf.unfold &> /root/perf.folded

root@master:~/FlameGraph #

最后就是生成火焰🔥图了

root@master:~/FlameGraph # ./flamegraph.pl /root/perf.folded > /root/perf.svg

当然也可以通过管道符 | 将整个过程简化:

cd&& perf | FlameGraph/stackcollapse-perf.pl | FlameGraph/flamegraph.pl > process.svg

最后在谷歌浏览器上打开该火焰图: