Perf 是一款随 Linux 内核代码一同发布和维护的性能诊断工具,由内核社区维护和发展。Perf 不仅可以用于应用程序的性能统计分析,也可以应用于内核代码的性能统计和分析。
它不但可以分析指定应用程序的性能问题 (per thread),也可以用来分析内核的性能问题,当然也可以同时分析应用代码和内核,从而全面理解应用程序中的性能瓶颈。
在此对Perf工具的使用做一下简单介绍,方便对程序性能问题进行定位。
安装
使用命令进行安装:apt-get install linux-tools
perf的基本原理是对监测对象进行采样,最简单的一例是根据tick中断进行采样,即当tick中断发生时触发采样点,在采样点中判断程序当时的上下文。例如,通过perf发现一个程序90%的采样点都出现在函数foo()的上下文中,说明程序90%的时间都在调用函数foo()。
改变采样的触发条件可以统计到不同的数据:
- 以时间为事件触发采样,可以获得程序运行时间的分布。
- 以cache miss事件触发采样便可以知道cache失效经常发生在哪些程序代码中。
常用Perf命令参数
【perf list】
使用perf list可以列出所有能触发perf采样点的事件
![Perf工具介绍 - 网易杭州QA - 网易杭州 QA Team](http://img0.ph.126.net/mxRXLPz2XzD41TxyWiBsyg==/6597868012100219661.png)
列表很长,但主要分作三类:
- Hardware Event 是由 PMU 硬件产生的事件,比如 cache 命中,当您需要了解程序对硬件特性的使用情况时,便需要对这些事件进行采样;
- Software Event 是内核软件产生的事件,比如进程切换,tick 数等 ;
- Tracepoint event 是内核中的静态 tracepoint 所触发的事件,这些 tracepoint 用来判断程序运行期间内核的行为细节,比如 slab 分配器的分配次数等。
上述每一个事件都可以用于采样,并生成一项统计数据。但遗憾的是,目前尚没有文档对每一个event的含义进行详细解释。
【perf stat】
当我们拿到一个程序后,首先要对其整体的运行情况和资源使用有初步的认识。此时perf stat应是首先使用的工具。
以下面这个简单的c程序为例
![Perf工具介绍 - 网易杭州QA - 网易杭州 QA Team](http://img0.ph.126.net/jZLWuLrKuoEvMWXUddnJeg==/2013953458465051476.png)
将其编译为可执行文件t1 :gcc -o t1 -g test.c
随后使用perf stat对t1进行统计,命令及结果如下
![Perf工具介绍 - 网易杭州QA - 网易杭州 QA Team](http://img0.ph.126.net/oLrsf0KnjxoiqivMDPlNUA==/1002895342038225534.png)
在缺省情况下,perf stat给出最常用的的统计项的信息:
- Task-clock-msecs:CPU 利用率,该值高,说明程序的多数时间花费在 CPU 计算上而非 IO。
- Context-switches:进程切换次数,记录了程序运行过程中发生了多少次进程切换,频繁的进程切换是应该避免的。
- Cache-misses:程序运行过程中总体的 cache 利用情况,如果该值过高,说明程序的 cache 利用不好
- CPU-migrations:表示进程 t1 运行过程中发生了多少次 CPU 迁移,即被调度器从一个 CPU 转移到另外一个 CPU 上运行。
- Cycles:处理器时钟,一条机器指令可能需要多个 cycles,
- Instructions: 机器指令数目。
- IPC:是 Instructions/Cycles 的比值,该值越大越好,说明程序充分利用了处理器的特性。
- Cache-references: cache 命中的次数
- Cache-misses: cache 失效的次数。
通过-e选项,可以指定perf stat的统计项,即perf list中所列的事件。
例如:
perf stat --repeat 5 -e kmem:mmpagepcpudrain -e kmem:mmpagealloc -e kmem:mmpagevecfree -e kmem:mmpagefreedirect ./hackbench 10
在hackbench程序运行时,对内存页的相关事件进行统计,运行时间为10秒。
此外,通过-p可以指定进程,-t可以指定线程。-r N连续分析N次,-d用于全面性能分析,采集更多性能时事件。
【perf top】
对于单一的程序,使用perf stat可以方便的对其运行情况有所了解。但对于一个较大型的系统,当发现性能下降时,往往没有头绪、不知道是哪个环节所造成。
这时候,可以使用perf top命令,对整个系统的性能进行统计,找出最耗资源的用户进程或内核函数。
![Perf工具介绍 - 网易杭州QA - 网易杭州 QA Team](http://img2.ph.126.net/PY4JezmY51cDO__hhIlbIw==/734931164292059027.png)
【perf record与perf report】
perf record可对函数级别进行事件统计,进而将调优的注意力集中到百分比高的代码段上,随后使用perf report来显示统计结果。
仍以程序t1为例, 可以看出整个程序跑下来,最耗时的是longa()函数。
在perf report中,上下键选中某一项,按下右键可以选择Annotate。进而看到更为详细的信息。
![Perf工具介绍 - 网易杭州QA - 网易杭州 QA Team](http://img2.ph.126.net/tIqnFszJJ-TdhOlKnHCc3A==/2961961180026278939.png)