很久之前写的一篇文章了,现在趁着搬家,把它移过来,尽管不够全面,但是一般意义上的工作够用了。
测量程序运行时间的几种方法
前一段时间在做一个优化程序性能的项目,为了测试优化的程度,粗略学习了一些测量程序运行时间的技术,www.amazon.co.uk/Computer-Systems-Programmers-Randal-Bryant/dp/013034074X在这个方面几乎没有可以参考的文献,以下是我接触到的一些资料,记录在此,以备将来参考。
测量程序运行时间的几种方法
前一段时间在做一个优化程序性能的项目,为了测试优化的程度,粗略学习了一些测量程序运行时间的技术,www.amazon.co.uk/Computer-Systems-Programmers-Randal-Bryant/dp/013034074X在这个方面几乎没有可以参考的文献,以下是我接触到的一些资料,记录在此,以备将来参考。
1: Computer System: A programmer's perspective
2: Software Optimization for High-Performance Computing:Creating Faster Applications
我们都知道,根本不可能精确测量某一个程序运行的确切时间,所谓的测量运行时间只是做一个近似的测量。我归纳总结的方法全部基于IA32及win32,Unix/Linux平台。
目前测量程序运行时间主要有两类方法,一种是基于计时器Timer的,另一种是基于计数器Counter的。
目前测量程序运行时间主要有两类方法,一种是基于计时器Timer的,另一种是基于计数器Counter的。
一:基于Timer的测量方法。
缺点:精度不够高,不能用于程序运行持续时间小于100ms的测量。
优点:准确性不是十分依赖于系统负载,并且在执行时间大于1s的程序上,与理论值之间的误差很低。
方法:在程序开始时读取计时器的内容,在程序终止前再次读取Timer的内容。主要的接口函数有:
Unix/Linux:
clock_t times(struct tms *buf);
//return value:系统自启动以来经过的时间滴答数,常数CLK_TCK表示每秒经过的时钟滴答数
缺点:精度不够高,不能用于程序运行持续时间小于100ms的测量。
优点:准确性不是十分依赖于系统负载,并且在执行时间大于1s的程序上,与理论值之间的误差很低。
方法:在程序开始时读取计时器的内容,在程序终止前再次读取Timer的内容。主要的接口函数有:
Unix/Linux:
clock_t times(struct tms *buf);
//return value:系统自启动以来经过的时间滴答数,常数CLK_TCK表示每秒经过的时钟滴答数
//parameter:一个指向tms结构的指针
//使用该函数时要包含头文件<sys/times.h>
//使用该函数时要包含头文件<sys/times.h>
Win32:
DWORD GetTickCount(VOID)
//return value:the number of milliseconds that have elapsed since the system was started.
//使用时应包含<windows.h>,link阶段应链接 kernel32.lib
DWORD GetTickCount(VOID)
//return value:the number of milliseconds that have elapsed since the system was started.
//使用时应包含<windows.h>,link阶段应链接 kernel32.lib
如果要编写可进行平台移植的代码,可以利用下面的函数:
clock_t clock(void)
//常数CLOCKS_PER_SEC保证将该函数返回的值格式化为秒数
//使用该函数时要包含头文件<time.h>
clock_t clock(void)
//常数CLOCKS_PER_SEC保证将该函数返回的值格式化为秒数
//使用该函数时要包含头文件<time.h>
二:基于Counter的测量方法。
缺点:只能用汇编语言读取,不能保证通用性,在系统负载很大的情况下,将极大的影响准确性
优点:精度高,并且因为得到的是程序执行期间所经过的时钟周期数,所以可大致估算出在不同硬件平台上程序的执行时间。
方法:在IA32体系结构中,CPU内部有一个被称为“时间戳(TimeStamp)”的64位无符号数计数器,存储自cpu上电以来所经过的时钟周期数。
优点:精度高,并且因为得到的是程序执行期间所经过的时钟周期数,所以可大致估算出在不同硬件平台上程序的执行时间。
方法:在IA32体系结构中,CPU内部有一个被称为“时间戳(TimeStamp)”的64位无符号数计数器,存储自cpu上电以来所经过的时钟周期数。
一:WIN32中有一个
QueryPerformanceCouter函数读取的就是一个64位的计数器.
二:目前的compiler有的不支持
RDTSC指令,如果在这种compiler下,可以利用__emit指令绕过compiler执行,应该在文件头加入:
#define CPUID __asm __emit 0fh __asm __emit 0a2h
#define RDTSC __asm __emit 0fh __asm __emit 031h
微软的C/C++编译器从6.0版开始支持CPUID和RDTSC指令,所以可以直接在程序中嵌入汇编代码,下面是一个简单示例:
#define RDTSC __asm __emit 0fh __asm __emit 031h
微软的C/C++编译器从6.0版开始支持CPUID和RDTSC指令,所以可以直接在程序中嵌入汇编代码,下面是一个简单示例:
#include<stdio.h>
int main()
{
unsigned int cycle,i;
__asm
{
CPUID
RDTSC
mov cycle,eax
}
for(i=0;i<10000;i++)
;
__asm
{
CPUID
RDTSC
sub eax,cycle
mov cycle,eax
}
printf("the program duration cycle = %d/n",cycle);
return 0;
}
由于基于counter的测量方法受影响的因素较多,主要是 Context Switch和 Instruction Cache的影响,所以高精度计时必须设法消除上述两种因素的影响,对Context Switch主要是采用在负载低的机器上多次计算求平均,而对Instruction Cache多采用提前载入需要测试代码段的Instruction,然后执行测量的方法.具体做法参见
http://www.cs.usfca.edu/~cruse/cs210/rdtscpm1-1.pdf
Computer System: A programmer's perspective(Chapter 7)
int main()
{
unsigned int cycle,i;
__asm
{
CPUID
RDTSC
mov cycle,eax
}
for(i=0;i<10000;i++)
;
__asm
{
CPUID
RDTSC
sub eax,cycle
mov cycle,eax
}
printf("the program duration cycle = %d/n",cycle);
return 0;
}
由于基于counter的测量方法受影响的因素较多,主要是 Context Switch和 Instruction Cache的影响,所以高精度计时必须设法消除上述两种因素的影响,对Context Switch主要是采用在负载低的机器上多次计算求平均,而对Instruction Cache多采用提前载入需要测试代码段的Instruction,然后执行测量的方法.具体做法参见
http://www.cs.usfca.edu/~cruse/cs210/rdtscpm1-1.pdf