说在前面:本篇文章给出矩阵乘法在cpu和gpu上的实现,对代码做出详细的解释,并给出完整的可运行的代码。
优化思路
这里我们结合共享内存和矩阵分块的思路去实现gpu端的矩阵乘法,我们会将矩阵分成很多个小矩阵,每个block对于一个小矩阵的计算,举个例子来说明这个问题,我们将a矩阵和b矩阵平均切分为9个小矩阵,同时也分配9个blcok,1号blcok需要做的是将a和b的1号矩阵相乘,再加上a的2号矩阵乘以b的4号矩阵,在加上a的3号矩阵乘以b的7号矩阵,这样就获得了输出矩阵的1号矩阵,以此类推可以得到最终的整个输出矩阵,需要注意的是,我们在每次进行小矩阵计算的时候需要先将小矩阵的数据读取到共享内存中,因为共享内存是有限的,所以我们对输出的小矩阵的计算需要进行分步。
#include <stdio.h>
#include <math.h>
#define M 1000
#define N 500
#define K 1000
__managed__ int a[M*N];
__managed__ int b[N*K];
__managed__ int c_gpu[M*K];
__managed__ int c_cpu[M*K];
#define BLOCK_SIZE 16
__global__ void gpu_matrix(int* a, int* b, int* c, int m, int n, int k)
{
__shared__ int sub_a[BLOCK_SIZE][BLOCK_SIZE];
__shared__ int sub_b[BLOCK_SIZE][BLOCK_SIZE];
int x = blockIdx.x * blockDim.x + threadIdx.x;
int y = blockIdx.y * blockDim.y + threadIdx.y;
int tmp =0;
int idx;
for(int step=0; step <= n/BLOCK_SIZE; step++)
{
int step_x = step * BLOCK_SIZE + threadIdx.x;
int step_y = y;
idx = step_y * n + step_x;
if(step_x >= n || step_y >= m)
{
sub_a[threadIdx.y][threadIdx.x] =0;
}
else
{
sub_a[threadIdx.y][threadIdx.x] = a[idx];
}
step_x = x;
step_y = step * BLOCK_SIZE + threadIdx.y;
idx = step_y * k +step_x;
if(step_x >= k || step_y >= n)
{
sub_b[threadIdx.y][threadIdx.x] = 0;
}
else
{
sub_b[threadIdx.y][threadIdx.x] = b[idx];
}
__syncthreads();
for(int i = 0; i < BLOCK_SIZE; i++)
{
tmp +=sub_a[threadIdx.y][i] * sub_b[i][threadIdx.x];
}
__syncthreads();
}
if ( x < k && y < m)
{
c[y*k + x] = tmp;
}
}
void cpu_matrix(int* a, int* b, int* c, int m, int n, int k)
{
for( int y = 0; y < m; y++)
{
for(int x = 0; x < k; x++)
{
int tmp = 0;
for(int step =0; step < n; step++)
{
tmp += a[y*n + step] * b[step*k + x];
}
c[y * k + x] = tmp;
}
}
}
int main()
{
for(int y=0; y<M; ++y)
{
for(int x=0; x<N; ++x)
{
a[y * N + x] = rand()%1024;
}
}
for(int y=0; y<N; ++y)
{
for(int x=0; x<K; ++x)
{
b[y*K + x] = rand()%1024;
}
}
unsigned int grid_x = (K + BLOCK_SIZE -1)/BLOCK_SIZE;
unsigned int grid_y = (M + BLOCK_SIZE -1)/BLOCK_SIZE;
dim3 dimGrid(grid_x, grid_y);
dim3 dimBlock(BLOCK_SIZE, BLOCK_SIZE);
gpu_matrix<<<dimGrid, dimBlock>>>(a, b, c_gpu, M, N, K);
cpu_matrix(a, b, c_cpu, M, N, K);
bool errors = false;
for(int y=0; y<M; y++)
{
for(int x=0; x<K; x++)
{
if(fabs(c_cpu[y*K + x] - c_gpu[y*K+x]) > (1.0e-10))
{
errors = true;
printf("c_cpu: %d. c_gpu: %d", c_cpu[y*K + x], c_gpu[y*K+x]);
}
}
}
printf("Result: %s\n", errors?"Error":"Pass");
return 0;
}
代码解释
#define M 1000
#define N 500
#define K 1000
这里我们定义了三个宏,M是矩阵a的行数,N是矩阵a的列数(也是矩阵b的行数),K是矩阵b的列数。
__managed__ int a[M*N];
__managed__ int b[N*K];
__managed__ int c_gpu[M*K];
__managed__ int c_cpu[M*K];
#define BLOCK_SIZE 16
这里我们定义了四个统一变量,分别用于存储a和b矩阵已经矩阵相乘后在cpu和gpu端的结果。BLCOK_SIZE是指每个blcok的大小是16*16。
void cpu_matrix(int* a, int* b, int* c, int m, int n, int k)
{
for( int y = 0; y < m; y++)
{
for(int x = 0; x < k; x++)
{
int tmp = 0;
for(int step =0; step < n; step++)
{
tmp += a[y*n + step] * b[step*k + x];
}
c[y * k + x] = tmp;
}
}
}
这是矩阵乘法在cpu端的实现,这里不做过多的解释,比较常规,在主函数中会对cpu和gpu端的结果进行比较。
__global__ void gpu_matrix(int* a, int* b, int* c, int m, int n, int k)
a和b是输入矩阵,c是输出矩阵,m和n是a的行数和列数,k是b的列数。
__shared__ int sub_a[BLOCK_SIZE][BLOCK_SIZE];
__shared__ int sub_b[BLOCK_SIZE][BLOCK_SIZE];
int x = blockIdx.x * blockDim.x + threadIdx.x;
int y = blockIdx.y * blockDim.y + threadIdx.y;
在共享内存中定义了两个矩阵用于存储每个小矩阵的数据。x和y的线程的全局坐标。
int tmp =0;
int idx;
for(int step=0; step <= n/BLOCK_SIZE; step++)
{
int step_x = step * BLOCK_SIZE + threadIdx.x;
int step_y = y;
idx = step_y * n + step_x;
if(step_x >= n || step_y >= m)
{
sub_a[threadIdx.y][threadIdx.x] =0;
}
else
{
sub_a[threadIdx.y][threadIdx.x] = a[idx];
}
step_x = x;
step_y = step * BLOCK_SIZE + threadIdx.y;
idx = step_y * k +step_x;
if(step_x >= k || step_y >= n)
{
sub_b[threadIdx.y][threadIdx.x] = 0;
}
else
{
sub_b[threadIdx.y][threadIdx.x] = b[idx];
}
__syncthreads();
for(int i = 0; i < BLOCK_SIZE; i++)
{
tmp +=sub_a[threadIdx.y][i] * sub_b[i][threadIdx.x];
}
__syncthreads();
}
tmp是用于存储矩阵计算的结果,idx是当前线程对于的矩阵元素的全局索引。这里的for循环其实就是计算小矩阵的乘法,最终输出的小矩阵的值是通过n/BLOCK_SIZE个步骤实现的。
if ( x < k && y < m)
{
c[y*k + x] = tmp;
}
将输出的值写进目标矩阵中。
int main()
{
for(int y=0; y<M; ++y)
{
for(int x=0; x<N; ++x)
{
a[y * N + x] = rand()%1024;
}
}
for(int y=0; y<N; ++y)
{
for(int x=0; x<K; ++x)
{
b[y*K + x] = rand()%1024;
}
}
unsigned int grid_x = (K + BLOCK_SIZE -1)/BLOCK_SIZE;
unsigned int grid_y = (M + BLOCK_SIZE -1)/BLOCK_SIZE;
dim3 dimGrid(grid_x, grid_y);
dim3 dimBlock(BLOCK_SIZE, BLOCK_SIZE);
gpu_matrix<<<dimGrid, dimBlock>>>(a, b, c_gpu, M, N, K);
cpu_matrix(a, b, c_cpu, M, N, K);
bool errors = false;
for(int y=0; y<M; y++)
{
for(int x=0; x<K; x++)
{
if(fabs(c_cpu[y*K + x] - c_gpu[y*K+x]) > (1.0e-10))
{
errors = true;
printf("c_cpu: %d. c_gpu: %d", c_cpu[y*K + x], c_gpu[y*K+x]);
}
}
}
printf("Result: %s\n", errors?"Error":"Pass");
return 0;
}
main函数就是实现了输入矩阵的初始化,以及cpu矩阵乘法的调用和gpu核函数的调用,并将两个结果进行比较。
总结
总体来说,这个核函数利用了 GPU 的并行处理能力和共享内存来高效地执行矩阵乘法。通过将矩阵分割成小块并在共享内存中处理,这种方法大大减少了全局内存访问的次数,从而提高了效率。