NVIDIA CUDA核函数编写及CUDA API调用注意事项之In-place

15 篇文章 0 订阅
13 篇文章 5 订阅

引言

CUDA(Compute Unified Device Architecture,统一计算架构)是由NVIDIA所推出的一种集成技术,是其对于GPGPU(A General-Purpose Graphics Processing Unit)的正式名称。通过该技术,开发者可以利用NVIDIA的GeForce 8以后的GPU进行计算。极大加速计算型应用的效率。通常用于游戏开发、视频编解码、图像处理等领域。

在这里插入图片描述

问题分析

在编写CUDA核函数时,或者直接调用CUDA封装好的API时,通常会有需要in-place的需求。也就是输出与输入是同一块内存,直接将输入值通过计算后,在输入值原始内存位置进行值的修改。

需要注意的是大多数复杂的算法可能不支持in-place操作,特别是那些单个值与邻域值有关联的算法。由于CUDA核函数运行时是以线程集束的形式发射的,每一个线程运行速度不一定相同,也就是存在一个线程运行结束另外一个线程还没有运行完的情况,这时如果采用In-plcae,已经结束的线程输出地址值已经被修改,而另一个未结束线程用到了这一个值,则会发生错误。不仅是同一个线程集束会有这种问题,在输入图像特别大的情况下,可能需要分批次处理,这时也会发生上述的问题。

例如在NPP文档中,有对in-place的专门解释,支持in-place的操作均会在后缀中标上“I”的标识符。
在这里插入图片描述
在这里插入图片描述
例如函数NppStatus nppiAbs_16s_C1IR_Ctx (Npp16s *pSrcDst, int nSrcDstStep, NppiSize oSizeROI, NppStreamContext nppStreamCtx)就支持in-place。
在这里插入图片描述
除了直接调用CUDA API时需要注意之外,我们自己编写CUDA核函数时也需要注意这一点,避免现象与预想不一致。

总结

在调用CUDA API或者自己编写CUDA核函数需要注意算法是否支持in-place操作,如果对于不支持in-place的方法,传入的src和dst地址一样,那么可能出现错误的结果。

通常情况下,在图像处理中,不需要额外像素参与计算的算法,例如简单的数值操作、像素值域调整等等是支持in-place的,但是诸如卷积、滤波等操作由于单个像素点的计算需要邻域像素的参与,此时如果实现上没有特别处理,一般都不支持in-place操作。需要额外创建一个dst数组用于接收结果。

关于CUDA图像处理的API,一般都会标明是否支持in-place,可以通过相应的标识符进行判别。

在这里插入图片描述

参考资料

[1] NVIDIA CUDA核函数及结合OpenCV的使用入门示例
[2] NVIDIA DEVELOPER HOME BLOG
[3] NVIDIA 2D Image And Signal Performance Primitives (NPP) Version 11.2.0.*
[4] NppStatus nppiAbs_16s_C1IR_Ctx (Npp16s *pSrcDst, int nSrcDstStep, NppiSize oSizeROI, NppStreamContext nppStreamCtx)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

TracelessLe

❀点个赞加个关注再走吧❀

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值