CUDA
文章平均质量分 88
foreverx11
这个作者很懒,什么都没留下…
展开
-
CUDA 矩阵乘法优化
矩阵乘法 为了单纯起见,我们这里以方形的矩阵为例子。基本上,假设有两个矩阵 A 和 B,则计算 AB = C 的方法如下: for(j = 0; j n; j++) { C[i][j] =0; for(k=0; k n; k++) { C[i][j] += A[i][k]* B[转载 2013-03-12 22:10:14 · 2477 阅读 · 0 评论 -
推荐CUDA程序优化的15个策略
1. memory coalescing,保证内存融合。因为global memory在CC为1.x上是按照half wrap进行访问读写的,而在2.x上是按照wrap进行访问读写的。在显存中,有多个存储器控制器,负责对显存的读写,因此,一定要注意存储器控制器的负载均衡问题。每一个存储器控制器所控制的那片显存中的地址空间称为一个分区。连续的256Byte数据位于同一个分区,相邻的另一组256Byt转载 2013-03-12 22:13:22 · 1046 阅读 · 0 评论