CUDA编程实现一个矩阵乘法

最新推荐文章于 2024-05-07 16:58:00 发布

weixin_42470012

最新推荐文章于 2024-05-07 16:58:00 发布

阅读量1.1k

点赞数

分类专栏：无人驾驶 study of unmanned vehicle research

本文链接：https://blog.csdn.net/weixin_42470012/article/details/103268406

版权

无人驾驶同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

study of unmanned vehicle research

7 篇文章 0 订阅

订阅专栏

最后我们再实现一个稍微复杂一些的例子，就是两个矩阵的乘法，设输入矩阵为A和B,要得到C=A*B。实现思路是每个线程计算C的一个元素值实现思路是每个线程计算 C的一个元素值Cij ，对于矩阵运算，应该选用grid和block为2-D的。首先定义矩阵的结构体：

// 矩阵类型，行优先，M(row, col) = *(M.elements + row * M.width + col)
struct Matrix
{
    int width;
    int height;
    float *elements;
};

矩阵乘法实现模式然后实现矩阵乘法的核函数，这里我们定义了两个辅助的__device__函数分别用于获取矩阵的元素值和为矩阵元素赋值，具体代码如下：

// 获取矩阵A的(row, col)元素
__device__ float getElement(Matrix *A, int row, int col)
{
	return A->elements[row * A->width + col];
}

// 为矩阵A的(row, col)元素赋值
__device__ void setElement(Matrix *A, int row, int col, float value)
{
	A->elements[row * A->width + col] = value;
}

// 矩阵相乘kernel，2-D，每个线程计算一个元素
__global__ void matMulKernel(Matrix *A, Matrix *B, Matrix *C)
{
	float Cvalue = 0.0;
	int row = threadIdx.y + blockIdx.y * blockDim.y;
	int col = threadIdx.x + blockIdx.x * blockDim.x;
	for (int i = 0; i < A->width; ++i)
	{
		Cvalue += getElement(A, row, i) * getElement(B, i, col);
	}
	setElement(C, row, col, Cvalue);
}


```cpp
int main()
{
    int width = 1 << 10;
    int height = 1 << 10;
    Matrix *A, *B, *C;
    // 申请托管内存
    cudaMallocManaged((void**)&A, sizeof(Matrix));
    cudaMallocManaged((void**)&B, sizeof(Matrix));
    cudaMallocManaged((void**)&C, sizeof(Matrix));
    int nBytes = width * height * sizeof(float);
    cudaMallocManaged((void**)&A->elements, nBytes);
    cudaMallocManaged((void**)&B->elements, nBytes);
    cudaMallocManaged((void**)&C->elements, nBytes);

    // 初始化数据
    A->height = height;
    A->width = width;
    B->height = height;
    B->width = width;
    C->height = height;
    C->width = width;
    for (int i = 0; i < width * height; ++i)
    {
        A->elements[i] = 1.0;
        B->elements[i] = 2.0;
    }

    // 定义kernel的执行配置
    dim3 blockSize(32, 32);
    dim3 gridSize((width + blockSize.x - 1) / blockSize.x, 
        (height + blockSize.y - 1) / blockSize.y);
    // 执行kernel
    matMulKernel << < gridSize, blockSize >> >(A, B, C);


    // 同步device 保证结果能正确访问
    cudaDeviceSynchronize();
    // 检查执行结果
    float maxError = 0.0;
    for (int i = 0; i < width * height; ++i)
        maxError = fmax(maxError, fabs(C->elements[i] - 2 * width));
    std::cout << "最大误差: " << maxError << std::endl;

    return 0;
}

既然写到这里了，我相信大家一定和我一样不知道gridsize 与 block size 之间的区别，以及如何分配内存。

在这里插入图片描述
一个核只能调用一个grid，所有的线程就组成了一个grid.
对于矩阵的乘法来说，一个线程块上的线程是放在同一个流式多处理器（SM)上的，但是单个SM的资源有限，这导致线程块中的线程数是有限制的，现代GPUs的线程块可支持的线程数可达1024个。有时候，我们要知道一个线程在blcok中的全局ID，此时就必须还要知道block的组织结构，这是通过线程的内置变量blockDim来获得。它获取线程块各个维度的大小。对于一个2-dim的block [公式] ，线程 [公式] 的ID值为 [公式] ，如果是3-dim的block [公式] ，线程 [公式] 的ID值为 [公式] 。另外线程还有内置变量gridDim，用于获得网格块各个维度的大小。

kernel的这种线程组织结构天然适合vector,matrix等运算，如我们将利用上图2-dim结构实现两个矩阵的加法，每个线程负责处理每个位置的两个元素相加，代码如下所示。线程块大小为(16, 16)，然后将N*N大小的矩阵均分为不同的线程块来执行加法运算。

// Kernel定义
__global__ void MatAdd(float A[N][N], float B[N][N], float C[N][N]) 
{ 
    int i = blockIdx.x * blockDim.x + threadIdx.x; 
    int j = blockIdx.y * blockDim.y + threadIdx.y; 
    if (i < N && j < N) 
        C[i][j] = A[i][j] + B[i][j]; 
}
int main() 
{ 
    ...
    // Kernel 线程配置
    dim3 threadsPerBlock(16, 16); 
    dim3 numBlocks(N / threadsPerBlock.x, N / threadsPerBlock.y);
    // kernel调用
    MatAdd<<<numBlocks, threadsPerBlock>>>(A, B, C); 
    ...
}

dim3 grid(1, 1, 1), block(length, 1, 1);

上述语句的意思是，定义一个一维的GRID，然后，GRID里面的设置与length 等长的线程。关于GRID THREAD BLOCK 之间的关系，请参考这样一片博客https://blog.csdn.net/hujingshuang/article/details/53097222

可能是因为我 cuda 版本的问题，

 nvprof ./A*B

==6270== NVPROF is profiling process 6270, command: ./A*B
==6270== Profiling application: ./A*B
==6270== Profiling result:
No kernels were profiled.

==6270== API calls:
No API activities were profiled.
==6270== Warning: Some profiling data are not recorded. Make sure cudaProfilerStop() or cuProfilerStop() is called before application exit to flush profile data.
======== Error: Application received signal 139

weixin_42470012

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
CUDA编程实现一个矩阵乘法

最后我们再实现一个稍微复杂一些的例子，就是两个矩阵的乘法，设输入矩阵为A和B,要得到C=A*B。实现思路是每个线程计算C的一个元素值实现思路是每个线程计算 C的一个元素值Cij ，对于矩阵运算，应该选用grid和block为2-D的。首先定义矩阵的结构体：// 矩阵类型，行优先，M(row, col) = *(M.elements + row * M.width + col)struct Ma...
复制链接

扫一扫