CUDA算法:矩阵相乘（含C语言代码和OPENMP）

最新推荐文章于 2024-07-23 14:52:48 发布

DevinTT

最新推荐文章于 2024-07-23 14:52:48 发布

阅读量1.2k

点赞数 1

分类专栏： cuda 高性能文章标签： CUDA OPENMP 高性能

本文链接：https://blog.csdn.net/DevinTT/article/details/89308015

版权

cuda 同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

高性能

4 篇文章 0 订阅

订阅专栏

CUDA是基于nvidia的显卡SDK一门并行编程技术。做矩阵相乘自然是“得心应手”。

设A为的矩阵，B为的矩阵，那么称的矩阵C为矩阵A与B的乘积，记作。

C/CPP串行实现代码：

int Matrix::MatMulti(Mat &MatA, Mat &MatB, Mat &MatC){

    if(MatA.col!=MatB.row)
        return 1;
    MatCreat(MatA.row, MatB.col, MatC);

    int i,j,k;
    for(i=0; i<MatC.row; i++) {
        for(j=0; j<MatC.col; j++) {
            for(MatC.mat[i][j]=k=0; k<MatA.col; k++) {
                MatC.mat[i][j] += MatA.mat[i][k] * MatB.mat[k][j];
            }
        }
    }
    return 0;
}

但是计算公式的数据间无依赖，可以实现并行。

核函数：

__global__ void cudaMatMulti(CudaMat *cudaMatA, CudaMat *cudaMatB, CudaMat *cudaMatC){
    unsigned int col = blockIdx.x*blockDim.x + threadIdx.x;
    unsigned int row = blockIdx.y*blockDim.y + threadIdx.y;
    if(col>= cudaMatC->col || row>=cudaMatC->row) return;

    int temp = 0;
    for(int i = 0; i<cudaMatC->col; i++)
        temp += cudaMatA->mat[i+row*cudaMatA->col] * cudaMatB->mat[col+i*cudaMatB->col];
    cudaMatC->mat[col+row*cudaMatC->col] = temp;
}

如果要使用多核CPU计算，则可以加入openMP技术，轻松将C代码粗粒度并行。

#ifdef _OPENMP
#include <omp.h>
#endif

int Matrix::MatMulti(Mat &MatA, Mat &MatB, Mat &MatC){

    if(MatA.col!=MatB.row)
        return 1;
    MatCreat(MatA.row, MatB.col, MatC);
    #ifdef _OPENMP
    #pragma omp parallel for schedule(dynamic, 1) num_threads(8)
    #endif
    for(int i=0; i<MatC.row; i++) {
        #ifdef _OPENMP
        #pragma omp parallel for schedule(dynamic, 1) num_threads(8)
        #endif
        for(int j=0; j<MatC.col; j++) {
            int k;
            for(MatC.mat[i][j]=0 , k=0; k<MatA.col; k++) {
                MatC.mat[i][j] += MatA.mat[i][k] * MatB.mat[k][j];
            }
        }
    }
    return 0;
}

但是记得在编译的时候在cxx_flag加上: