《CUDA C编程权威指南》—读书笔记—2.2计时

本文链接：https://blog.csdn.net/RiddleC/article/details/105578295

上一篇学习了CUDA的整体框架，简单介绍了关于线程组织和内存的知识。2.2节内容是CUDA编程中的一个实用工具。在进行并行编程时，我们主要关注的时算法、程序的执行效率，因此对核函数执行的时间统计是非常常见的。类似C/C++中的time.h 中的clock_t、clock()等，CUDA也提供了一些计时方法。

2.2.计时器
添加sys/time.h 头文件，实用gettimeofday来创建一个CPU计时器。注意这是在linux系统下的调用。

double cpuSecond(){
	struct timeval tp;
	gettimeofday(&tp,NULL);
	return ((double)tp.tv_sec+(double)tp.tv_usec*1.e-6);
}

检测核函数

double iStart =cpuSecond();
kernel<<<grid,block>>>(argument list);
cudaDeviceSynchronize();
double iElaps=cpuSecond()-iStart;

需要注意，由于核函数调用与主机端程序异步，需要用cudaDeviceSynchronize函数来等待GPU所有线程完成。
同样，在VS环境下，include time.h文件，利用clock（）函数来获取系统时间。但是clock()对于较小的时间回输出0。因此需要用更精确的计时方法。
此处主要提前写一个CUDA中利用时间来计时的方法。cudaEventRecord（）

cudaEvent_t start,stop;
cudaEventCreate(&Tstart);
cudaEventCreate(&Tstop);
float elapsedTime;
cudaEventRecord(start,0);
kernel<<<>>>;
cudaEventRecord(stop,0);
cudaEventSynchronize(stop);//等待CUDAAPI的同步
cudaEventElapsedTime(&elapsedTime,start,stop);
printf("time：%fms\n", elapsedTime);