【软件质量】用profile 工具查找软件性能瓶颈|性能

122 篇文章 23 订阅
70 篇文章 18 订阅

目录

即可即用

前言 

详细介绍

1.1  安装

1.2  基本用法步骤

1.3信息解读和工作原理

工作原理

生成的信息与解释

1.3 简单例子

常用的gprof命令选项 

资料来源

其他的一些工具



即可即用

1、编译的时候添加 -pg 项

2、程序必须正常退出(调用exit或从main中返回)生成gmon.out

3、用Gropf查看gmon.out文件

$ g++ main.cpp -pg -o main
$ ./main # 会生成gmon.out性能分析文件
$ gprof -b main gmon.out > report.txt

这是基本使用方法,更加详细的参见info gprof。最终呈现的统计信息包括两张表:flat table和call graph。flat table列出了各个函数的运行时间(不包括子函数)及所占总运行时间的比率,函数的调用次数;call graph还包括函数之间的调用关系,详细列出了每个函数在它的各个子函数上所耗费的时间。


前言 

GNU工具链 (GNU Toolchain) 是一组用于开发应用程序和操作系统的编程工具的集合,这些工具构成了一个完整的系统。GNU工具链包括GCC、GNU Binutils、GNU m4、GNU Autoconf和GNU make等部分。这里主要介绍GCC、Binutils和Glibc。

GNU Compiler Collection
GCC全称GNU Compiler Collection,其主要的工具包括cpp、g++、gcc、gcov、gprof

Gprof是GNU profiler工具

功能

Gprof是GNU profiler工具。可以显示程序运行的“flatprofile”,包括每个函数的调用次数每个函数消耗的处理器时间。也可以显示“调用图”,包括 函数的调用关系每个函数调用花费了多少时间。还可以显示“注释的源代码”,是程序源代码的一个复本,标记有程序中每行代码的执行次数

关于Gprof的 使用以及实现原理网上已有多篇文章提及,本文就不再详述,只是对其进行梳理和总结,方便阅读。(Gprof的官方网 址:http://www.cs.utah.edu/dept/old/texinfo/as/gprof_toc.html,http: //sourceware.org/binutils/docs/gprof/index.html 绝对权威的参考资料。)

优劣(注意)

gprof实际上只是一个用于读取profile结果文件的工具。gprof采用混合方法来收集程序的统计信息,它使用检测方法,在编译过程中在函数入口处插入计数器用于收集每个函数的被调用情况和被调用次数;也使用采样方法,在运行时按一定间隔去检查程序计数器并在分析时找出程序计数器对应的函数来统计函数占用的时间。需要注意的是,gprof统计的只是CPU的占用时间,对I/O瓶颈貌似无能为力,耗时甚久的I/O操作很可能只占据极少的CPU时间

详细介绍

1.1  安装

     Glibc自带,无需另外安装

1.2  基本用法步骤


1. 使用 -pg 选项编译和链接你的应用程序
 
    在gcc编译程序的时候,加上-pg选项,例如:
    gcc -pg -o test test.c

  这样就生成了可执行文件test。如果是大项目,就在makefile里面修改编译选项,-pg放在那里都行。

2. 执行你的应用程序使之生成供gprof 分析的数据

    运行刚才的程序:./test,这样就生成了一个gmon.out文件,该文件就包含了profiling的数据。

3. 使用gprof 分析你的应用程序生成的数据

    gprof test gmon.out > profile.txt
   

使用上面的命令,gprof就可以分析程序test的性能,将profiling的结果放在profile.txt文件中,打开就可以看到分析的结果。通过对结果的分析来改进我们的程序,从而达到我们的目的。

GNU gprof是个很不错的工具,大家写程序时可以多用用,用gprof来profiling程序,把耗时最多的函数或运算找出来。

图形化输出请参考大师blog:利用 gprof2dot 和graphviz 图形化定位linux c/c++系统性能瓶颈 - 阿里巴巴一个测试架构师 - 51Testing软件测试网 51Testing软件测试网-软件测试人的精神家园

1.3信息解读和工作原理

工作原理


在编译或链接源程序的时候在编译器的命令行参数中加入“-pg”选项,编译时编译器会自动在目标代码中插入用于性能测试的代码片断这些代码在程序在运行时采集并记录函数的调用关系和调用次数,以及采集并记录函数自身执行时间和子函数的调用时间,程序运行结束后,会在程序退出的路径下生成一个gmon.out文件。这个文件就是记录并保存下来的监控数据。可以通过命令行方式的gprof或图形化的Kprof来解读这些数据并对程序的性能进行分析。另外,如果想查看库函数的profiling,需要在编译是再加入“-lc_p”编译参数代替“-lc”编译参数,这样程序会链接libc_p.a库,才可以产生库函数的profiling信息。如果想执行一行一行的profiling,还需要加入“-g”编译参数。


例如如下命令行:
gcc -Wall -g -pg -lc_p example.c -o example

执行gprof
执行如下命令行,即可执行gprof:

gprof OPTIONS EXECUTABLE-FILE gmon.out BB-DATA [YET-MORE-PROFILE-DATA -FILES...] [> OUTFILE]

prof 实现原理
通过在编译和链接你的程序的时候(使用 -pg 编译和链接选项),gcc 在你应用程序的每个函数中都加入了一个名为mcount ( or “_mcount” , or “__mcount” , 依赖于编译器或操作系统)的函数,也就是说你的应用程序里的每一个函数都会调用mcount, 而mcount 会在内存中保存一张函数调用图,并通过函数调用堆栈的形式查找子函数和父函数的地址。这张调用图也保存了所有与函数相关的调用时间、调用次数等等的所有信息。

生成的信息与解释

Flat Profile的数据解释:

%timeCumulative secondsSelf secondsCallsSelf ms/callTotal ms/callname
该函数消耗时间占程序所有时间百分比函数和上列函数累计执行时间(仅包括gprof能够监控到的函数)该函数本身执行时间(所有被调用次数的总共时间)函数被调用次数函数平均执行时间函数平均执行时间,包括其衍生函数函数名

如何分析呢?

  1. 看%time列, 或者 "self ms/call"列, 这里消耗时间最多的函数就是最耗费CPU的函数了. 也是最值得优化的函数了. (消耗仅统计函数自身的代码消耗, 不统计子函数的消耗)
  2. 看"total ms/call"列, 找到包含子函数在内最耗时间的函数
  3. 从"self ms/call"列和"total ms/call"列对比可知, 如果self ms/call列的值很小,就可以推测子函数消耗时间很多

一般Flat Profile的数据就够算法竞赛或者日常的小项目的分析了。如果需要Call Graph的分析,参考网上其他的文章。

 %                        the percentage of the total running time of the
time                     program used by this function.
                           函数使用时间占所有时间的百分比。
cumulative          a running sum of the number of seconds accounted
 seconds             for by this function and those listed above it.
                           函数和上列函数累计执行的时间。
 self                    the number of seconds accounted for by this
seconds             function alone.  This is the major sort for this
                          listing.
                          函数本身所执行的时间。
calls                   the number of times this function was invoked, if
                          this function is profiled, else blank.
                          函数被调用的次数
 self                   the average number of milliseconds spent in this
ms/call               function per call, if this function is profiled,
                         else blank.
                          每一次调用花费在函数的时间microseconds。
 total                  the average number of milliseconds spent in this
ms/call               function and its descendents per call, if this 
                          function is profiled, else blank.
                          每一次调用,花费在函数及其衍生函数的平均时间microseconds。
name                 the name of the function.  This is the minor sort
                          for this listing. The index shows the location of
                          the function in the gprof listing. If the index is
                          in parenthesis it shows where it would appear in
                          the gprof listing if it were to be printed.
                          函数名

1.3 简单例子

1.打开linux终端。新建一个test.c文件,并生用-pg 编译和链接该文件。

#include "stdio.h"
#include "stdlib.h"

void a()
{
    printf("\t\t+---call a() function\n");
}

void c()
{
    printf("\t\t+---call c() function\n");
}

int b()
{
    printf("\t+--- call b() function\n");
    a();
    c();
    return 0;
}

int main()
{
    printf(" main() function()\n");
    b();
}

命令行里面输入下面命令,生成可执行程序test:
 

[linux /home/test]$gcc -pg test.c -o test

如果要得到带注释的源码清单,则需要增加 -g 选项。运行: gcc -pg -g -o hello hello.c 


2.执行你的应用程序使之生成供gprof 分析的数据:

[linux /home/test]$./test
main() function()
    +--- call b() function
        +---call a() function
        +---call c() function
[linux /home/test]$

你会在当前目录下看到一个gmon.out 文件, 这个文件就是供gprof 分析使用的。

3.使用gprof 程序分析你的应用程序生成的数据:

[linux /home/test]$ gprof -b test gmon.out | less
  1. gprof hello gmon.out -p 得到每个函数占用的执行时间 
  2. gprof hello gmon.out -q 得到call graph,包含了每个函数的调用关系,调用次数,执行时间等信息。 
  3. gprof hello gmon.out -A 得到一个带注释的“源代码清单”,它会注释源码,指出每个函数的执行次数。这需要在编译的时候增加 -g选项。

由于gprof输出的信息比较多,这里使用了 less 命令,该命令可以让我们通过上下方向键查看gprof产生的输出,|表示gprof -b test gmon.out 的输出作为 less的输入。下面是我从gprof输出中摘抄出的与我们有关的一些详细信息。

Flat profile:
 
Each sample counts as 0.01 seconds.
 no time accumulated
 
  %   cumulative   self              self     total
 time   seconds   seconds    calls  Ts/call  Ts/call  name
  0.00      0.00     0.00        1     0.00     0.00  a
  0.00      0.00     0.00        1     0.00     0.00  b
  0.00      0.00     0.00        1     0.00     0.00  c



                        Call graph


granularity: each sample hit covers 4 byte(s) no time propagated
 
index % time    self  children    called     name
                0.00    0.00       1/1           b [2]
[1]      0.0    0.00    0.00       1         a [1]
-----------------------------------------------
                0.00    0.00       1/1           main [10]
[2]      0.0    0.00    0.00       1         b [2]
                0.00    0.00       1/1           c [3]
                0.00    0.00       1/1           a [1]
-----------------------------------------------
                0.00    0.00       1/1           b [2]
[3]      0.0    0.00    0.00       1         c [3]
-----------------------------------------------

Index by function name
 
   [1] a                       [2] b                       [3] c


 

从上面的输出我们能明显的看出来,main 调用了 b 函数, 而b 函数分别调用了a 和 c 函数。由于我们的函数只是简单的输出了一个字串,故每个函数的消耗时间都是0 秒。

常用的gprof命令选项 

常用的gprof命令选项: 


-b            不再输出统计图表中每个字段的详细描述。 
-p            只输出函数的调用图(Call graph的那部分信息)。
-q            只输出函数的时间消耗列表。
-e Name       不再输出函数Name 及其子函数的调用图(除非它们有未被限制的其它父函数)。可以给定多个 -e 标志。一个 -e 标志只能指定一个函数。
-E Name       不再输出函数Name 及其子函数的调用图,此标志类似于 -e 标志,但它在总时间和百分比时间的计算中排除了由函数Name 及其子函数所用的时间。
-f Name       输出函数Name 及其子函数的调用图。可以指定多个 -f 标志。一个 -f 标志只能指定一个函数。 
-F Name       输出函数Name 及其子函数的调用图,它类似于 -f 标志,但它在总时间和百分比时间计算中仅使用所打印的例程的时间。可以指定多个 -F 标志。一个 -F 标志只能指定一个函数。-F 标志覆盖 -E 标志。 
-z           显示使用次数为零的例程(按照调用计数和累积时间计算)。

使用注意:
1)一般gprof只能查看用户函数信息。如果想查看库函数的信息,需要在编译是再加入“-lc_p”编译参数代替“-lc”编译参数,这样程序会链接libc_p.a库,才可以产生库函数的profiling信息。
2) gprof只能在程序正常结束退出之后才能生成程序测评报告,原因是gprof通过在atexit()里注册了一个函数来产生结果信息,任何非正常退出都不会执行atexit()的动作,所以不会产生gmon.out文件。如果你的程序是一个不会退出的服务程序,那就只有修改代码来达到目的。如果不想改变程序的运行方式,可以添加一个信号处理函数解决问题(这样对代码修改最少),例如:

static void sighandler( int sig_no )   
{   
      exit(0);   
}   
signal( SIGUSR1, sighandler );

当使用kill -USR1 pid 后,程序退出,生成gmon.out文件。

  1. 通常gprof的采样周期是0.01s,统计项越接近这个值误差可能越大。若函数的运行时间低于0.01S,统计值会显示为0。
  2. 多线程下,gprof只能采集主线程性能数据。原因是gprof采用ITIMER_PROF信号,在多线程内,只有主线程才能响应该信号。解决的关键是让各个线程响应ITIMER_PROF信号,就是重写pthread_create函数。
  3. 一般gprof只能查看用户函数信息。如果想查看库函数的信息,需要在编译是再加入"-lc_p"编译参数代替"-lc"编译参数,这样程序会链接libc_p.a库,才可以产生库函数的profiling信息。

资料来源

《C++ Profiler工具》C++ Profiler工具_格物致知-CSDN博客

用profile协助程序性能优化 python》用profile协助程序性能优化 - py小蟒蛇 - 博客园

Linux下程序的Profile工具Linux下程序的Profile工具 - 邓维 - 博客园

其他的一些工具

见https://blog.csdn.net/chdhust/article/details/41073885与https://blog.csdn.net/feilengcui008/article/details/51306894。

如非注明,原创内容遵循GFDLv1.3发布;其中的代码遵循GPLv3发布。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值