google perftools分析程序性能

转自:http://www.cnblogs.com/GODYCA/archive/2013/05/28/3104281.html

1、功能简介

它的主要功能就是通过采样的方式,给程序中cpu的使用情况进行“画像”,通过它所输出的结果,我们可以对程序中各个函数(得到函数之间的调用关系)耗时情况一目了然。在对程序做性能优化的时候,这个是很重要的,先把最耗时的若干个操作优化好,程序的整体性能提升应该十分明显,这也是做性能优化的一个最为基本的原则—先优化最耗时的。

2、安装

1、下载gperftools

Wget https://code.google.com/p/gperftools/downloads/detail?name=gperftools-2.0.tar.gz

2、tar –xzf gperftools-2.0.tar.gz

3、cd gperftools-2.0

4、./configure --prefix=/usr/local –enable-frame-pointers

5、make && make install

ps:编译时打开了 –enable-frame-pointers ,这要求被测试的程序在编译时要加上gcc编译选项,否则某些多线程程序可能会 core:
CCFLAGS=-fno-omit-frame-pointer

ps:perftools对2.4内核的多线程支持不是很好,只能分析主线程,但是2.6内核解决了这个问题。

安装图形化分析工具kcachegrind:

kcachegrind用来分析产生的profiling文件,linux环境下使用。

kcachegrind install:sudo apt-get install kcachegrind

 

3、使用

方法有三种:

1、直接调用提供的api:这种方式比较适用于对于程序的某个局部来做分析的情况,直接在要做分析的局部调用相关的api即可。

方式:调用函数:ProfilerStart() and ProfilerStop()

2、链接静态库:这种方式是最为常用的方式,后面会有详细的介绍。

方式:在代码link过程中添加参数 –lprofiler

For example:gcc […] -o helloworld –lprofiler

运行程序:env CPUPROFILE=./helloworld.prof ./helloworld

指定要profile的程序为helloworld,并且指定产生的分析结果文件的路径为./helloworld.prof

3、链接动态库:这种方式和静态库的方式差不多,但通常不推荐使用,除非使用者不想额外链一个静态库(因为链接静态库会增大binary的大小)的情况,可以考虑使用这种方式。

方式:运行时使用LD_PRELOAD,e.g. % env LD_PRELOAD="/usr/lib/libprofiler.so" <binary>(不推荐这种方式)。

Ps:env是linux下插入环境变量的shell命令

 

4、 查看收集数据结果

查看profile结果:pprof工具,它是一个perl的脚本,通过这个工具,可以将google-perftool的输出结果分析得更为直观,输出为图片、pdf等格式。

Ps:在使用pprof之前需要先安装运行per15,如果要进行图标输出则需要安装dot,如果需要--gv模式的输出则需要安装gv。

调用pprof分析数据文件:

% pprof /bin/ls ls.prof

                       Enters "interactive" mode

% pprof --text /bin/ls ls.prof

                       Outputs one line per procedure

% pprof --gv /bin/ls ls.prof

                       Displays annotated call-graph via 'gv'

% pprof --gv --focus=Mutex /bin/ls ls.prof

                       Restricts to code paths including a .*Mutex.* entry

% pprof --gv --focus=Mutex --ignore=string /bin/ls ls.prof

                       Code paths including Mutex but not string

% pprof --list=getdir /bin/ls ls.prof

                       (Per-line) annotated source listing for getdir()

% pprof --disasm=getdir /bin/ls ls.prof

                       (Per-PC) annotated disassembly for getdir()

% pprof --text localhost:1234

                       Outputs one line per procedure for localhost:1234

% pprof --callgrind /bin/ls ls.prof

                       Outputs the call information in callgrind format

分析callgrind的输出:

使用kcachegrind工具来对.callgrind输出进行分析

 e.g. % pprof --callgrind /bin/ls ls.prof > ls.callgrind 

% kcachegrind ls.callgrind

4、举例

事例一:cpu_profiler_example.cpp,在代码中插入标签,可以针对某个函数进行特定的profile

代码如下:

 

关注两个函数:ProfilerStart() and ProfilerStop()

Makefile:

 

-L 动态链接库地址,但是有可能程序执行的时候,找不到动态链接库,所以得

export  LD_LIBRARY_PATH=LD_LIBRARY_PATH:"/home/work/alex/tools/gperftools/lib"

1)执行./cpu_profile_example

生成一个性能数据文件: cpu_profiler_example_29502.prof

Ps:当然指定性能数据文件生成的路径和文件名:

CPUPROFILE=/tmp/profile ./myprogram

将在/tmp目录下产生profile性能数据文件

2)分析性能数据

pprof -text cpu_profiler_example cpu_profiler_example_3875.prof

 

Text输出结果分析:

14  2.1%  17.2%       58   8.7% std::_Rb_tree::find

含义如下:

14:find函数花费了14个profiling samples

2.1%:find函数花费的profiling samples占总的profiling samples的比例

17.2%:到find函数为止,已经运行的函数占总的profiling samples的比例

58:find函数加上find函数里的被调用者总共花费的profiling samples

8.7%:find函数加上find函数里的被调用者总共花费的profiling samples占总的profiling samples的比例

std::_Rb_tree::find:表示profile的函数

ps: 100 samples a second,所以得出的结果除以100,得秒单位

Ldd可以查看一个程序要链接那些动态库:

 

事例二:cpu_profiler_example.cpp,不需要在代码里添加任何标签,将profile所有的函数。

代码如下:

   

 

Makefile:

 

1)执行程序,生成性能数据文件

CPUPROFILE=/tmp/profile ./cpu_profiler_example

2)分析数据文件

1)pprof -text cpu_profiler_example  profile

2)命令行交互模式

 

事例三:由于我们的程序有可能是服务程序,而服务程序不会自动执行完退出,如果以ctrl+c退出也不是正常的exit(0)的方式退出,而这会导致我们在profile的时候,收集到的数据不全甚至是空的,采用如下解决办法:

将ProfilerStart和ProfilerStop这2个函数封装到两个信号处理函数中,给服务程序发信号SIGUSR1,就开始profile,给服务程序发信号SIGUSR2,就停止profile。这样我们可以随时对程序进行profiling,并获得数据。

代码如下:
复制代码
 1 #include <stdio.h>
 2 #include <sys/types.h>
 3 #include <unistd.h>
 4 #include <signal.h>
 5 #include <google/profiler.h>
 6  
 7 //SIGUSR1: start profiling
 8 //SIGUSR2: stop profiling
 9  
10 static void gprof_callback(int signum)
11 {
12     if (signum == SIGUSR1) 
13     {
14         printf("Catch the signal ProfilerStart\n");
15         ProfilerStart("bs.prof");
16     } 
17     else if (signum == SIGUSR2) 
18     {
19         printf("Catch the signal ProfilerStop\n");
20         ProfilerStop();
21     }
22 }
23  
24 static void setup_signal()
25 {
26     struct sigaction profstat;
27     profstat.sa_handler = gprof_callback;
28     profstat.sa_flags = 0;
29     sigemptyset(&profstat.sa_mask);                                        
30     sigaddset(&profstat.sa_mask, SIGUSR1);
31     sigaddset(&profstat.sa_mask, SIGUSR2);
32                                             
33     if ( sigaction(SIGUSR1, &profstat,NULL) < 0 ) 
34     {
35         fprintf(stderr, "Fail to connect signal SIGUSR1 with start profiling");
36     }
37     if ( sigaction(SIGUSR2, &profstat,NULL) < 0 ) 
38     {
39         fprintf(stderr, "Fail to connect signal SIGUSR2 with stop profiling");
40     }
41 }
42  
43 int loopop_callee()
44 {
45     int n=0;
46     for(int i=0; i<10000; i++)
47     {
48         for(int j=0; j<10000; j++)
49         {
50              n |= i%100 + j/100;
51         }
52     }
53     return n;
54 }
55  
56 int loopop()
57 {
58     int n=0;
59     while(1)
60     {
61         for(int i=0; i<10000; i++)
62         {
63             for(int j=0; j<10000; j++)
64             {
65                 n |= i%100 + j/100;
66             }
67         }
68         printf("result:  %d\n", (loopop_callee)() );
69     }
70     return n;
71 }
72  
73 int main(int argc,char** argv)
74 {
75     char program[1024]={0};
76     //snprintf(program,1023,"%s_%d.prof",argv[0],getpid());
77     setup_signal();
78     printf("result:  %d\n", (loopop)() );
79     return 0;
80 }
复制代码
关注两个函数gprof_callback和setup_signal。
启动程序,可以采用kill -s SIGUSR1 5722和kill -s SIGUSR2 5722来开始采集和停止采集,5722是进程pid。

5、心得

最后,补充一点,要用google-perftool来分析程序,必须保证程序能正常退出。

采用kcachegrind查看函数之间依赖,并分析程序性能

 

 


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
google-perftools 简介 google-perftools 是一款针对 C/C++ 程序的性能分析工具,它是一个遵守 BSD 协议的开源项目。使用该工具可以对 CPU 时间片、内存等系统资源的分配和使用进行分析,本文将重点介绍如何进行 CPU 时间片的剖析。 google-perftools 对一个程序的 CPU 性能剖析包括以下几个步骤。 1. 编译目标程序,加入对 google-perftools 库的依赖。 2. 运行目标程序,并用某种方式启动 / 终止剖析函数并产生剖析结果。 3. 运行剖结果转换工具,将不可读的结果数据转化成某种格式的文档(例如 pdf,txt,gv 等)。 安装 您可以在 google-perftools 的网站 (http://code.google.com/p/google-perftools/downloads/list) 上下载最新版的安装包。为完成步骤 3 的工作,您还需要一个将剖析结果转化为程序员可读文档的工具,例如 gv(http://www.gnu.org/software/gv/)。 编译与运行 您需要在原有的编译选项中加入对 libprofiler.so 的引用,这样在目标程序运行时会加载工具的动态库。例如本例中作者的系统中,libprofiler.so 安装在"/usr/lib"目录下,所以需要在 makefile 文件中的编译选项加入“-L/usr/lib -lprofiler”。 google-perftools 需要在目标代码的开始和结尾点分别调用剖析模块的启动和终止函数,这样在目标程序运行时就可以对这段时间内程序实际占用的 CPU 时间片进行统计和分析。工具的启动和终止可以采用以下两种方式。 a. 使用调试工具 gdb 在程序中手动运行性能工具的启动 / 终止函数。 gdb 是 Linux 上广泛使用的调试工具,它提供了强大的命令行功能,使我们可以在程序运行时插入断点并在断点处执行其他函数。具体的文档请参照 http://www.gnu.org/software/gdb/,本文中将只对用到的几个基本功能进行简单介绍。使用以下几个功能就可以满足我们性能调试的基本需求,具体使用请参见下文示例。 命令 功能 ctrl+c 暂停程序的运行 c 继续程序的运行 b 添加函数断点(参数可以是源代码中的行号或者一个函数名) p 打印某个量的值或者执行一个函数调用 b. 在目标代码中直接加入性能工具函数的调用,该方法就是在程序代码中直接加入调试函数的调用。 两种方式都需要对目标程序重新编译,加入对性能工具的库依赖。对于前者,他的好处是使用比较灵活,但工具的启动和终止依赖于程序员的手动操作,常常需要一些暂停函数(比如休眠 sleep)的支持才能达到控制程序的目的,因此精度可能受到影响。对于后者,它需要对目标代码的进行修改,需要处理函数声明等问题,但得到的结果精度较高,缺点是每次重新设置启动点都需要重新编译,灵活度不高,读者可以根据自己的实际需求采用有效的方式。 示例详解 该程序是一个简单的例子,文中有两处耗时的无用操作,并且二者间有一定的调用关系。 清单 1. 示例程序 void consumeSomeCPUTime1(int input){ int i = 0; input++; while(i++ < 10000){ i--; i++; i--; i++; } }; void consumeSomeCPUTime2(int input){ input++; consumeSomeCPUTime1(input); int i = 0; while(i++ < 10000){ i--; i++; i--; i++; } }; int stupidComputing(int a, int b){ int i = 0; while( i++ < 10000){ consumeSomeCPUTime1(i); } int j = 0; while(j++ < 5000){ consumeSomeCPUTime2(j); } return a+b; }; int smartComputing(int a, int b){ return a+b; }; void main(){ int i = 0; printf("reached the start point of performance bottle neck\n"); sleep(5); //ProfilerStart("CPUProfile"); while( i++ MyProfile.pdf 转换后产生的结果文档如下图。图中的数字和框体的大小代表了的某个函数的运行时间占整个剖析时间的比例。由代码的逻辑可知,stupidComputing,stupidComputing2 都是费时操作并且它们和 consumeSomeCPUTime 存在着一定的调用关系。 图 1. 剖析结果 结束语 本文介绍了一个 Linux 平台上的性能剖析工具 google-perftools,并结合实例向读者展示了如何使用该工具配置、使用及分析性能瓶颈。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值