NVIDIA CUDA核函数编写及CUDA API调用注意事项之In-place

最新推荐文章于 2023-09-06 16:56:53 发布

TracelessLe

最新推荐文章于 2023-09-06 16:56:53 发布

阅读量778

点赞数

分类专栏： # CUDA # C/C++ # GPU加速

本文为原创文章，独家发布在blog.csdn.net/TracelessLe。未经个人允许不得转载。如需帮助请email至tracelessle@163.com。

本文链接：https://blog.csdn.net/TracelessLe/article/details/113754023

版权

CUDA 同时被 3 个专栏收录

17 篇文章 1 订阅

订阅专栏

C/C++

15 篇文章 0 订阅

订阅专栏

GPU加速

13 篇文章 5 订阅

订阅专栏

本文探讨了CUDA编程中in-place操作的重要性，尤其是在处理复杂算法和大规模图像时的注意事项。讲解了为何某些算法不支持in-place，并举例说明NVIDIA NPP库中支持与不支持in-place的函数。提醒开发者在使用CUDA API或自定义核函数时务必注意算法兼容性。

摘要由CSDN通过智能技术生成

引言

CUDA（Compute Unified Device Architecture，统一计算架构）是由NVIDIA所推出的一种集成技术，是其对于GPGPU（A General-Purpose Graphics Processing Unit）的正式名称。通过该技术，开发者可以利用NVIDIA的GeForce 8以后的GPU进行计算。极大加速计算型应用的效率。通常用于游戏开发、视频编解码、图像处理等领域。

在这里插入图片描述

问题分析

在编写CUDA核函数时，或者直接调用CUDA封装好的API时，通常会有需要in-place的需求。也就是输出与输入是同一块内存，直接将输入值通过计算后，在输入值原始内存位置进行值的修改。

需要注意的是大多数复杂的算法可能不支持in-place操作，特别是那些单个值与邻域值有关联的算法。由于CUDA核函数运行时是以线程集束的形式发射的，每一个线程运行速度不一定相同，也就是存在一个线程运行结束另外一个线程还没有运行完的情况，这时如果采用In-plcae，已经结束的线程输出地址值已经被修改，而另一个未结束线程用到了这一个值，则会发生错误。不仅是同一个线程集束会有这种问题，在输入图像特别大的情况下，可能需要分批次处理，这时也会发生上述的问题。

例如在NPP文档中，有对in-place的专门解释，支持in-place的操作均会在后缀中标上“I”的标识符。
在这里插入图片描述

例如函数NppStatus nppiAbs_16s_C1IR_Ctx (Npp16s *pSrcDst, int nSrcDstStep, NppiSize oSizeROI, NppStreamContext nppStreamCtx)就支持in-place。

除了直接调用CUDA API时需要注意之外，我们自己编写CUDA核函数时也需要注意这一点，避免现象与预想不一致。

总结

在调用CUDA API或者自己编写CUDA核函数需要注意算法是否支持in-place操作，如果对于不支持in-place的方法，传入的src和dst地址一样，那么可能出现错误的结果。

通常情况下，在图像处理中，不需要额外像素参与计算的算法，例如简单的数值操作、像素值域调整等等是支持in-place的，但是诸如卷积、滤波等操作由于单个像素点的计算需要邻域像素的参与，此时如果实现上没有特别处理，一般都不支持in-place操作。需要额外创建一个dst数组用于接收结果。

关于CUDA图像处理的API，一般都会标明是否支持in-place，可以通过相应的标识符进行判别。

在这里插入图片描述

参考资料

[1] NVIDIA CUDA核函数及结合OpenCV的使用入门示例
[2] NVIDIA DEVELOPER HOME BLOG
[3] NVIDIA 2D Image And Signal Performance Primitives (NPP) Version 11.2.0.*
[4] NppStatus nppiAbs_16s_C1IR_Ctx (Npp16s *pSrcDst, int nSrcDstStep, NppiSize oSizeROI, NppStreamContext nppStreamCtx)

TracelessLe

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
NVIDIA CUDA核函数编写及CUDA API调用注意事项之In-place

引言CUDA（Compute Unified Device Architecture，统一计算架构）是由NVIDIA所推出的一种集成技术，是其对于GPGPU（A General-Purpose Graphics Processing Unit）的正式名称。通过该技术，开发者可以利用NVIDIA的GeForce 8以后的GPU进行计算。极大加速计算型应用的效率。通常用于游戏开发、视频编解码、图像处理等领域。问题分析在编写CUDA核函数时，或者直接调用CUDA封装好的API时，通常会有需要in-plac
复制链接

扫一扫