CUDA编程
文章平均质量分 57
fegggye
这个作者很懒,什么都没留下…
展开
-
CUDA规约算法(加和)
这样同时保证了wrap内指令的一致,也保证了bank的访问连续,该方法在绝大多数情况基本已经可以满足要求了,但是其实在kernel执行时,也会有1半的线程空闲,所以还可以继续优化。以上规律就是满足t%(2*stride)==0,stride为1,2,4,8。以图为例,第0~7个线程,让第0~7和第8~15数字相关(stride=8)stride=1: 让线程0~7,访问第1,3,5,7,9个数字,stride=2: 让线程0~3,访问第1,4,8, 12个数字。第0个线程会和第1,2,4,8发生关系。原创 2023-01-15 20:41:44 · 720 阅读 · 1 评论 -
用CUDA 实现图像remap
下面是对应remap核函数的实现:remap就是把目标图像根据map里的对应坐标里的像素填补到结果图像里。函数调用过程:载入图像和坐标,准备remap核函数的数据和显存,执行函数后把结果拷贝回内存中。图像remap在图像和视频帧上经常用于仿射投影变换,畸变矫正,图像拼接。原创 2023-01-11 19:44:32 · 725 阅读 · 0 评论