![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
CUDA
hijackedbycsdn
这个作者很懒,什么都没留下…
展开
-
使用 NSight System 显示 CUDA 程序的各个流和内核耗时
之后才找到在 Process - 可执行文件名 - CUDA HW - [All streams] 和 Stream 里面。书本上用 nvvp,但是那个似乎要下 java,然后搜了一下似乎 nsight system 更先进一点,所以试着看一下。书名:《基于 CUDA 的 GPU 并行程序开发指南》但是一开始我找不到各个内核启动在哪。原创 2023-12-26 21:44:35 · 658 阅读 · 0 评论 -
《基于 CUDA 的 GPU 并行程序开发指南》中的 Hflip7 的越界错误的原因
但是一个线程处理 4 个像素,一个像素 3 byte,4 个像素就是 12 byte,也等于 3 个 int。当前行要处理的 int 的序号显然可以是 0 或者 1,如果是第 0 行的话,那么。那么现在我不算当前行要处理的像素的列数,我把当前行的像素总数换算成 int 的个数。他这里是一个线程处理一个像素的,所以基本思路就是你至少要启动跟像素总数相等的线程。然后我现在要算的是当前行要处理的 int 的列数,也就是要处理第几个 int。这个输出的行的方向是从图的底部到图的顶部。原创 2023-12-26 10:44:19 · 796 阅读 · 0 评论 -
笔记本电脑不插电情况下的 CUDA 代码性能测试没有意义
可以发现,不插电的情况下,不管代码好坏,得到的计算时间大差不差,因此完全无法判断代码好坏。书名:《基于 CUDA 的 GPU 并行程序开发指南》应该是 GPU 为了省电,会自动调节他的性能吧。对 imflipGCM.cu 测试。原创 2023-12-25 15:20:42 · 359 阅读 · 0 评论 -
《基于 CUDA 的 GPU 并行程序开发指南》中的 RowBytes 为什么这么计算
为什么要取 4 的倍数,这不是 CUDA 的要求,只是因为 bmp 的文件格式要求每行是 4 的整数倍。虽然你看到的文件属性显示的行像素值不是 4 的倍数,但是实际上文件的内容是把行填充到 4 的倍数了。书名:《基于 CUDA 的 GPU 并行程序开发指南》最简单的例子就是,如果你要读取,那么你是一次性读。相当于 A 向上取整取 4 的倍数。也就是取 4 的倍数。原创 2023-12-24 15:06:42 · 383 阅读 · 0 评论 -
《基于 CUDA 的 GPU 并行程序开发指南》中的 imrotate Rotate7 是怎么做优化的
可见,他就是把 X 这个变量化简了,如果 X 是一个整数,最终得到。书名:基于 CUDA 的 GPU 并行程序开发指南。需要做一个浮点和整数的乘法。变成了加法之后,速度就上来了。也就是存储一下偏置而已。,以累加的形式替代了。原创 2023-12-23 17:17:41 · 360 阅读 · 0 评论