CUDA进阶第三篇:CUDA计时方式

写在前面

内容分为两部分,第一部分为翻译《Professional CUDA C Programming》 Section 2. CUDA Programming Model中的TIMING YOUR KERNEL;第二部分为自己的经验。经验不足,欢迎各位大大补充。

写CUDA,追求的就是加速比,想要得到准确的时间,计时函数就是必不可少
计时通常分为两种情况,(1)直接得到接口函数的时间,一般用于得到加速比;(2)获得接口函数内核函数、内存拷贝函数等所耗时间,一般用于优化代码时。
情况(1)方法有两种,CPU计时函数和GPU计时函数。
情况(2)有三种工具nsight,nvvp,nvprof

本博客会详细介绍情况(1)的两种方法;情况(2),nsight不会用,简单介绍一下nvvp和nvprof的用法。

CPU计时函数

在利用CPU计时函数时,要考虑的一个问题是:核函数的执行是异步执行的,所以必须加上核函数同步函数,才能得到准确的时间。
示例代码如下:

double cpuSecond() {
    struct timeval tp;
    gettimeofday(&tp,NULL);
    return ((double)tp.tv_sec + (double)tp.tv_usec*1.e-6);
}
double iStart = cpuSecond();
function(argument list);
cudaDeviceSynchronize();  // 同步函数
double iElaps = cpuSecond() - iStart;

GPU计时函数

GPU计时函数就不需要考虑同步问题,直接用计时事件函数就可以了,示例代码如下:

cudaEvent_t start, stop;
float elapsedTime = 0.0;

cudaEventCreate(&start);
cudaEventCreate(&stop);
cudaEventRecord(start, 0);

function(argument list);;

cudaEventRecord(stop, 0);
cudaEventSynchronize(stop);

cudaEventElapsedTime(&elapsedTime, start, stop);

cout << elapsedTime << endl;

cudaEventDestroy(start);
cudaEventDestroy(stop);

如何获得精确的计时

正常情况下,第一次执行核函数的时间会比第二次慢一些。这是因为GPU在第一次计算时需要warmup。所以想要第一次核函数的执行时间是不精确的。获得精确的计时我总结为三种,如下

  1. 循环执行一百次所需要计时的部分,求平均值,将第一次的误差缩小100倍。这种方法的优点是简单粗暴。但缺点也很明显:(1)程序的执行时间大大增长,特别是比较大的程序(2)要考虑内存溢出问题,C++的内存需要程序猿自己手动管理。写出执行一次不出内存溢出问题的程序很容易,但是写出循环执行一百次而不出内存溢出问题的代码就有一定难度了(3)计时不是特别准确,虽然误差已经被缩小了100倍。
  2. 在计时之前先执行一个warmup函数,warmup函数随便写,比如我从cuda sample里的vectoradd作为warmup函数。这种方法的优点是程序执行时间缩短;缺点是需要在程序中添加一个函数,而且因为GPU乱序并行的执行方式,核函数的两次执行时间并不能完全保持一样。所以推荐使用方法3.
  3. 先执行warmup函数,在循环10遍计时部分。

nvvp和nvprof的用法

nvprof是自cuda5.0开始存在的一个命令行Profiler,你可以只用nvprof来你代码的一些执行细节。简单用法如下:

$ nvprof ./sumArraysOnGPU-timer

你就可以得到如下:

./sumArraysOnGPU-timer Starting...
Using Device 0: Tesla M2070
==17770== NVPROF is profiling process 17770, command: ./sumArraysOnGPU-timer
Vector size 16777216
sumArraysOnGPU <<<16384, 1024>>> Time elapsed 0.003266 sec
Arrays match.
......

关于nvprof的更多参数信息,可以使用帮助命令:

$ nvprof --help

The NVIDIA Visual Profiler(nvvp是一款图形化界面的Profiler,也是我一直在用的Profiler。
简单图文教程见链接

写在后面

OpenCUDA:CUDA图像算法开源项目,算法内都有详细的注释,大家一起学习。


私人接各种CUDA相关外包(调试、优化、开发图像算法等),有意向请联系,加好友时请注明。
这里写图片描述

  • 10
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
### 回答1: 实现cv::seamlessClone可以使用OpenCV库中提供的CUDA函数进行实现。 以下是一个简单的示例代码: ``` #include <opencv2/opencv.hpp> #include <opencv2/cudaimgproc.hpp> #include <opencv2/cudaarithm.hpp> int main(int argc, char** argv) { cv::Mat src = cv::imread("src.jpg"); cv::Mat dst = cv::imread("dst.jpg"); cv::Mat mask = cv::imread("mask.jpg", 0); cv::cuda::GpuMat src_gpu, dst_gpu, mask_gpu, result_gpu; src_gpu.upload(src); dst_gpu.upload(dst); mask_gpu.upload(mask); cv::cuda::seamlessClone(src_gpu, dst_gpu, mask_gpu, cv::Point(dst.cols / 2, dst.rows / 2), result_gpu, cv::cuda::NORMAL_CLONE); cv::Mat result_cpu; result_gpu.download(result_cpu); cv::imshow("result", result_cpu); cv::waitKey(0); return 0; } ``` 在此代码中,我们首先加载了原始图像、目标图像和掩码图像,然后将它们上传到GPU。接下来,我们调用`cv::cuda::seamlessClone`函数,并将结果下载到CPU上的矩阵中。最后,我们使用`cv::imshow`函数显示结果。 ### 回答2: 使用CUDA代码实现cv::seamlessClone需要以下步骤: 1. 首先,将输入图像和目标图像从主机内存复制到CUDA设备内存中。可以使用cudaMemcpy函数进行内存拷贝。 2. 在CUDA设备上创建一个输出图像的内存空间,并使用cudaMalloc函数为其分配内存。 3. 将输入图像和目标图像的像素数据分别传送到CUDA设备内存中。可以使用cudaMemcpy2D函数将二维图像数据传送到设备。 4. 在CUDA设备上创建一个内核函数,用来计算图像中的每个像素点的融合颜色。该函数可以根据融合算法的不同,使用不同的插值方法来计算像素点的新颜色。 5. 调用内核函数,对每个像素点进行并行计算,计算结果存储在输出图像内存中。 6. 最后,将输出图像的像素数据从设备内存复制到主机内存中。可以使用cudaMemcpy2D函数将二维图像数据从设备复制到主机内存。 7. 在主机上,创建一个新的cv::Mat对象,并将复制的像素数据填充到该对象中。最后,在主机上释放设备内存。 需要注意的是,实现CUDA版本的cv::seamlessClone可能需要一些图像处理和计算机视觉的知识,以及对CUDA编程模型的理解。同时,需要具备使用CUDA编程环境和库函数的能力。 ### 回答3: cv::seamlessClone函数是OpenCV中用于图像无缝融合的函数。要使用CUDA代码实现类似的功能,可以参考以下步骤: 1. 从输入图像和目标图像中读取数据,并将其分配到CUDA设备的全局内存中。 2. 创建一个与输入图像和目标图像大小相同的空白图像作为输出图像,并将其分配到CUDA设备的全局内存中。 3. 在CUDA设备上为输入图像、目标图像和输出图像分配相应的内存空间。 4. 使用CUDA核函数对输入图像和目标图像进行处理,计算图像的梯度(通过Sobel算子或其他方法),并将结果存储在CUDA设备内存中。 5. 使用CUDA核函数对输出图像进行处理,将输入图像和目标图像的梯度信息以及融合参数(比如像素权重)进行计算,并在输出图像中生成无缝融合的效果。 6. 将输出图像从CUDA设备的内存复制到主机内存,以便进一步处理或保存。 7. 释放CUDA设备内存中的图像数据和其他资源。 通过以上步骤,就可以用CUDA代码实现类似于cv::seamlessClone函数的功能,实现图像的无缝融合。但是具体的实现需要根据具体的需求和使用情况来进行一些调整和优化,以提高算法的效率和准确性。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值