CUDA 版本矩阵乘-CSDN博客

说明：

1.转载请联系本人

2.代码在最后

问题描述

矩阵乘法 C = aAB + bC
其中a,b为常数,A,B,C为矩阵

实验要求

根据内存大小测不同规模矩阵的处理速度（GFLOPS/s），并给出计算公式。
请计算系统的理论峰值，如果没有达到理论峰值，尝试给出原因。

方法

CUDA矩阵的优化有多个思路，在本次试验中我使用了shared memory进行访问速度的提升，尝试减少if-else语句的出现，避免串行化，同时做了精度优化以降低错误率（结果不怎么好）。
同时，参考Nvidia给的Samples中0_simple里的matrixMulCUBLAS相关代码，思考提升空间。

实验

结果及分析

1.假设矩阵维度为n

处理速度公式=2*n/1000000000/time;
带宽计算公式:
= ( sizeof(int)*dim + sizeof(int)*n + sizeof(float)*n
+ sizeof(float)*dim*2)/1000000000/time;

系统理论峰值(即浮点数理论峰值)
集群理论浮点峰值
= CPU主频（GHz）× CPU每时钟周期执行浮点运算次数 × 节点数 × 8（每节点双路四核）
=4.2*4*8=134.4GFLOPS/s

峰值带宽： B=F×D/8=2133MHz*64bit/8=17.064GHz

没有达到理论峰值的原因是:
程序并不只是在做浮点数运算或只是在访问内存；
sgemm中还存在着if-else语句，使得线程存在着divergence；
由于大小分配的问题存在着Occupancy；
存在着空闲的线程；
以及操作系统的线程调度，和服务器本身的不稳定性等等。

2.优化过程

2.1尝试shared memory

Shared memory的作用在于降低对于全局数据的访问，充分利用Cuda中线程可以有独立的内存空间及寄存器，以及block中线程之间可以通信的特点
在shared memory大小定义中，Width要保证不能大于XY对应dim的最小值，另外在测试的时候发现，如果width_size大于32，那么得到的结果是全错（无论XY的dim有多大）暂时不清楚为什么。

2.2尝试减少if-else语句

在Sgemm函数中，if-else语句主要用于进行边界判断。
这是因为在分配block大小的时候，矩阵的维度可能不能刚好被32整除。例如dim=500时，不进行边界判断会引起很多问题。
一个有效的解决方案是，利用ceil的取整函数，在for循环中有效限制i的上界。使得对矩阵维度的限制没有那么大。

在代码中对grid, block 定义如下
dim3 block(DIM_THREAD_BLOCK_Y, DIM_THREAD_BLOCK_Y);
  dim3 grid((size_t)ceil( ((float)N) / ((float)block.x) ), 
            (size_t)ceil( ((float)N) / ((float)block.y)) );
  //取整函数ceil
复制代码

当然，经过反复测试表明，矩阵的维度若能被32整除，其性能表现要比不能整除的要好。
另外在搜索查找的时候看到有一个方式是利用了cudaMallocPitch（），在分配的时候动态设定边界大小，但是参考调用之后其优化的效果不是很明显，没有原作者所说的三倍性能提升，可能和本人的相关知识掌握不足有关。