1. CUDA学习步骤
- CPU实现
a*b = c
的矩阵乘法(矩阵尺寸是n*m的,n和m大于1000) - 下载 https://developer.nvidia.com/cuda-downloads,安装好cuda
- 将cpu代码移植到cuda。将CPU值传入GPU,使用cuda计算,与cpu结果对比。
- 优化思路1:将矩阵分块进行计算
- 优化思路2:使用share memory进行优化
- 优化思路3:将数据绑定在texture上
2. CPU实现的矩阵乘法
废话不多说,直接上源码
/* CPUMatMultiply:CPU下矩阵乘法
* a:第一个矩阵指针,表示a[M][N]
* b:第二个矩阵指针,表示b[N][S]
* result:结果矩阵,表示为result[M][S]
*/
void CPUMatMultiply(const int * a,const int * b, int *result,const int M,const int N,const int S)
{
for (int i = 0; i < M; i++)
{
for (int j = 0; j < S; j++)
{
int index = i * S + j;
result[index] = 0;
//循环计算每一个元素的结果
for (int k = 0; k < N; k++)
{
result[index] += a[i * N + k] * b[k * S + j];
}
}
}
}
3. CUDA实现的矩阵乘法
在https://developer.nvidia.com/cuda-downloads中下载相应的CUDA安装程序,进行安装。
PS:有关CUDA的环境搭建,Hello_World工程的创建可以移步http://www.mamicode.com/info-detail-327339.html。
下面直接进入正题,矩阵乘法的移植。
从CPU上直接移植矩阵乘法到GPU上是非常简单的,不需要for循环,直接通过CUDA线程的id号,即threadIdx.x
和threadIdx.y
即可操作相应的数据。
gpu矩阵乘法核函数-源代码: