前言
矩阵乘法运算是机器学习的基础。比如,卷积神经网络通过矩阵化输入数据,然后通过矩阵乘法计算获得结果。而性能对于算法是至关重要的事情,所以本文主要介绍c++调用普通的矩阵乘法库进行计算,以及通过cuda计算矩阵乘法。C++常用cblas库加速cpu上的矩阵乘法运算。为了将速度提高更高,GPU版本矩阵乘法运算则通过cublas库进行操作,在cublas库中,使用cublasSgemv()和cublasSgemm()分别进行矩阵向量间的乘法运算与矩阵矩阵间的乘法运算。本文将具体的解释上述两个函数的参数以及具体的应用例子。参照官方解释
矩阵乘法函数解释
如何安装cpu版本和gpu版本的相应矩阵乘法库,可以参考这篇文章Ubuntu16.04 + Caffe + CUDA9.0 + cudnn7.0 的配置详细教程&& Ubuntu18.04 可用,虽然说是安装caffe框架的,但caffe则使用了两者的矩阵乘法库都用到了
CPU版本矩阵矩阵乘法
cblas有两个函数实现矩阵乘法,一个是cblas_sgemm(),另一个是cblas_dgemm()两者的不同点在于传入参数一个是float型,一个是double型。
void cblas_sgemm(
OPENBLAS_CONST enum CBLAS_ORDER Order, // 矩阵存储形式,行优先或者列优先
OPENBLAS_CONST enum CBLAS_TRANSPOSE TransA, // 进行矩阵乘运算前,A是否转置
OPENBLAS_CONST enum CBLAS_TRANSPOSE TransB, // 进行矩阵运算前,B是否转置
OPENBLAS_CONST blasint M, // A的行数
OPENBLAS_CONST blasint N, // B的列数
OPENBLAS_CONST blasint K, // A的列数 <==> B的行数
OPENBLAS_CONST double alpha, // 比例因子
OPENBLAS_CONST double *A, // A的首地址
OPENBLAS_CONST blasint lda, // A的列数,与是否转置无关
OPENBLAS_CONST double *B, // B的首地址
OPENBLAS_CONST blasint ldb, // B的列数,