很经典的例子,矩阵的乘法。呵呵。。。
分析下A,B,C为三个矩阵,A为m*n维,B为n*k维,C为m*k维,用A和B来计算C,计算方法是:C = alpha*A*B + beta*C。它的程序如下:
// C = alpha*A*B + beta*C
void mySgemm(int m, int n, int k, float alpha, float beta,\
float *A, float *B, float *C)
{
int i, j, l;
float ab;
for(j = 0; j < m; j++)
{
for(i = 0 ;i < k ;i++)
{
ab = 0.0f;
for(l = 0 ;l < n ;l++)
{
ab += A[j*n+l] * B[l*k+i];
}
C[j*k+i] = alpha*ab + beta*C[j*k+i];
}
}
}
这个程序修改自HMPP_Tutorial_Labs_CUDA中的lab0。
C中的每个元素的计算是独立的,完全可以并行化。后面的系列文章将会讲述优化这个程序的整个过程。