C++矩阵乘法计算 || GPU && CPU 实现

最新推荐文章于 2024-07-05 17:43:50 发布

泥石流中的一股清流

最新推荐文章于 2024-07-05 17:43:50 发布

阅读量5.1k

点赞数 1

分类专栏： CUDA 文章标签： CUDA cublas cblas c++

本文链接：https://blog.csdn.net/qq_31261509/article/details/82354015

版权

本文介绍了C++中使用cblas库进行CPU矩阵乘法运算，包括cblas_sgemm()和cblas_dgemm()函数，以及通过CUDA的cublas库进行GPU矩阵乘法，讲解了cublasSgemm()和cublasSgemv()函数。内容涵盖矩阵向量乘法、矩阵矩阵乘法，并提供了参数解释和应用示例。

摘要由CSDN通过智能技术生成

前言

矩阵乘法运算是机器学习的基础。比如，卷积神经网络通过矩阵化输入数据，然后通过矩阵乘法计算获得结果。而性能对于算法是至关重要的事情，所以本文主要介绍c++调用普通的矩阵乘法库进行计算，以及通过cuda计算矩阵乘法。C++常用cblas库加速cpu上的矩阵乘法运算。为了将速度提高更高，GPU版本矩阵乘法运算则通过cublas库进行操作，在cublas库中，使用cublasSgemv()和cublasSgemm()分别进行矩阵向量间的乘法运算与矩阵矩阵间的乘法运算。本文将具体的解释上述两个函数的参数以及具体的应用例子。参照官方解释

矩阵乘法函数解释

如何安装cpu版本和gpu版本的相应矩阵乘法库，可以参考这篇文章Ubuntu16.04 + Caffe + CUDA9.0 + cudnn7.0 的配置详细教程&& Ubuntu18.04 可用，虽然说是安装caffe框架的，但caffe则使用了两者的矩阵乘法库都用到了

CPU版本矩阵矩阵乘法

cblas有两个函数实现矩阵乘法，一个是cblas_sgemm(),另一个是cblas_dgemm()两者的不同点在于传入参数一个是float型，一个是double型。

void cblas_sgemm(
        OPENBLAS_CONST enum CBLAS_ORDER Order,         // 矩阵存储形式，行优先或者列优先
        OPENBLAS_CONST enum CBLAS_TRANSPOSE TransA,    // 进行矩阵乘运算前，A是否转置
        OPENBLAS_CONST enum CBLAS_TRANSPOSE TransB,    // 进行矩阵运算前，B是否转置
        OPENBLAS_CONST blasint M,                      // A的行数
        OPENBLAS_CONST blasint N,                      // B的列数
        OPENBLAS_CONST blasint K,                      // A的列数 <==> B的行数 
		OPENBLAS_CONST double alpha,                   // 比例因子
		OPENBLAS_CONST double *A,                      // A的首地址
		OPENBLAS_CONST blasint lda,                    // A的列数，与是否转置无关
		OPENBLAS_CONST double *B,                      // B的首地址
		OPENBLAS_CONST blasint ldb,                    // B的列数，