上一篇学习了CUDA的整体框架,简单介绍了关于线程组织和内存的知识。2.2节内容是CUDA编程中的一个实用工具。在进行并行编程时,我们主要关注的时算法、程序的执行效率,因此对核函数执行的时间统计是非常常见的。类似C/C++中的time.h 中的clock_t、clock()等,CUDA也提供了一些计时方法。
2.2.计时器
添加sys/time.h 头文件,实用gettimeofday来创建一个CPU计时器。注意这是在linux系统下的调用。
double cpuSecond(){
struct timeval tp;
gettimeofday(&tp,NULL);
return ((double)tp.tv_sec+(double)tp.tv_usec*1.e-6);
}
检测核函数
double iStart =cpuSecond();
kernel<<<grid,block>>>(argument list);
cudaDeviceSynchronize();
double iElaps=cpuSecond()-iStart;
需要注意,由于核函数调用与主机端程序异步,需要用cudaDeviceSynchronize函数来等待GPU所有线程完成。
同样,在VS环境下,include time.h文件,利用clock()函数来获取系统时间。但是clock()对于较小的时间回输出0。因此需要用更精确的计时方法。
此处主要提前写一个CUDA中利用时间来计时的方法。cudaEventRecord()
cudaEvent_t start,stop;
cudaEventCreate(&Tstart);
cudaEventCreate(&Tstop);
float elapsedTime;
cudaEventRecord(start,0);
kernel<<<>>>;
cudaEventRecord(stop,0);
cudaEventSynchronize(stop);//等待CUDAAPI的同步
cudaEventElapsedTime(&elapsedTime,start,stop);
printf("time:%fms\n", elapsedTime);
这在之后的事件中还会介绍。