cuda
霜溪
专注于算法和编程
展开
-
第一个Cuda程序,矩阵相乘代码
有两个矩阵,维数分别为MxN, NxK。得到相乘后的矩阵,维数为MxK。原创 2024-01-14 17:22:28 · 421 阅读 · 0 评论 -
Cuda编程——使用share memory优化矩阵乘法
仔细看看,会发现我们使用的是global memory,而share memory的访问速度要远远大于global memory,所以我们将使用share memory优化矩阵乘法,让程序更快!,我们设计了一种并行的矩阵乘法程序,效果和使用CPU计算的一样,但时间有了很大的降低,然而,这只是最基本的一种方法,事实上我们完全可以让程序变得更快!也许到了这里,这两个程序你并没有完全了解,但,不要担心,先把这些代码运行一下,体会使用GPU计算的魅力,为以后的学习打下基础。原创 2024-01-14 17:13:45 · 512 阅读 · 0 评论