CUDA
文章平均质量分 60
黄昏贩卖机
这个作者很懒,什么都没留下…
展开
-
编译 cuda + MPI
CUDA MPI nvcc mpicxx 编译原创 2023-04-12 09:39:53 · 470 阅读 · 0 评论 -
CUDA Programming Interface 编程接口
为了在给定的主机线程中能够检索到被映射分页锁定存储器的设备指针,必须在调用任何CUDA运行时函数前调用cudaSetDeviceFlags(),并传入cudaDeviceMapHost标签。以下的例子是矩阵相乘,没有使用共享内存,A的每一行与矩阵B的每一列做计算,得到矩阵C的一个元素。相当于A的子矩阵(A.width,block_size)和B的子矩阵 (block_size, A.width )相乘的结果。计算能力3.5的设备最大可并发执行的内核数目是32,其余的是16。翻译 2022-10-21 12:04:20 · 290 阅读 · 0 评论