OpenBLAS学习一：源码架构解析&GEMM分析

最新推荐文章于 2024-04-10 10:41:49 发布

frank2679

最新推荐文章于 2024-04-10 10:41:49 发布

阅读量5k

点赞数 20

分类专栏： C BLAS

本文链接：https://blog.csdn.net/frank2679/article/details/113243044

版权

1. 什么是OpenBLAS
2. OpenBLAS实现
3. 总结
4. 附录1 reference

1. 什么是OpenBLAS

1.1. BLAS

BLAS (basic linear algebra subprogram) 是线性数学的基本计算，包括标量，矢量，矩阵之间的计算，分别称为Level1~3的操作。
由于level3的操作复杂度较高，于是产生了针对不同平台做优化的BLAS实现，包括 AMD Core Math Library (ACML), Arm Performance Libraries, ATLAS, Intel Math Kernel Library (MKL), 及我们要介绍的 OpenBLAS。

另外还要介绍一下 LAPACK，LAPACK是high-level的线性计算库，比如求解特征值，奇异值分解等。也是 OpenBLAS 支持的功能。

OpenBLAS
OpenBLAS 简单说就是 BLAS+LAPACK 在多种CPU上的重新实现。使用 C，Fortran 语言。OpenBLAS不支持GPU。
OpenBLAS 是gotoBLAS的一个分支，gotoBLAS在2008年开始停止更新。
这篇文章仅关注 BLAS 的实现，LAPACK 不在本文的考虑范围内，OpenBLAS 支持 Fortran 和 C 两个版本，我们关注C版本，对应头文件为 cblas.h。
下面提到的 OpenBLAS 都是指其中的 CBLAS 部分。

1.2. 功能

包括level 1, 2, 3，分别指矢量和矢量，矢量和矩阵，矩阵和矩阵间的计算，对应的复杂度分别是 $O(n), O(n^2), O(n^3)$ 。很多科学计算，以及当下热门的深度学习的核心运算 CONV, FC 等都可以转化成矩阵乘法。
自然 level3 的性能是大家关注的重点。

1.3. 使用

1.3.1. 编译

包括 make, cmake 两套编译系统，都可以编译。
make直接在 TOP_DIR 下 make 即可，cmake 编译则按如下方式执行

cd cmake
cmake ..          # 生成相应的源码和makefile
cmake --build ..  # 编译生成库，生成的库文件在 `lib/` 下

OpenBLAS 默认会读取 CPU 配置，其型号（如 x86_64,HASWELL） core_num 会被读取作为默认配置。我的设备直接 make 的编译结果如下，库文件在 TOP_DIR 下。

 OpenBLAS build complete. (BLAS CBLAS LAPACK LAPACKE)

  OS               ... Linux             
  Architecture     ... x86_64               
  BINARY           ... 64bit                 
  C compiler       ... GCC  (cmd & version : cc (Ubuntu 7.5.0-3ubuntu1~18.04) 7.5.0)
  Library Name     ... libopenblas_haswellp-r0.3.13.dev.a (Multi-threading; Max num-threads is 16)

To install the library, you can run "make PREFIX=/path/to/your/installation install".

libopenblas_haswellp-r0.3.13.dev.a 表示多线程并行版本。

1.3.2. 调用

CBLAS调用方式如下。
以 gemm （generic matrix multiply）为例，实现的功能为
$\alpha A * B + \beta C$
$A, B, C$ 都是矩阵，维度分别是 $M\times K, K\times N, M\times N$

接口如下，其中 order 表示数据排布方式，包括 row-major，col-major 两种方式，分别表示以行/列方向连续排布数据。lda 即矩阵A 的 leading dimension，以 row-major 为例，lda = K。

#include "cblas.h"
int main()
{
   
    double A[6] = {
   1.0,2.0,1.0,-3.0,4.0,-1.0};         
    double B[6] = {
   1.0,2.0,1.0,-3.0,4.0,-1.0};  
    double C[9] = {
   .5,.5,.5,.5,.5,.5,.5,.5,.5}; 
    // dgemm C 版本接口

最低0.47元/天解锁文章

frank2679

关注

20
点赞
踩
42

收藏

觉得还不错? 一键收藏
1
评论
OpenBLAS学习一：源码架构解析&GEMM分析

1. 什么是OpenBLAS1.1. BLAS1.2. 功能1.3. 使用1.3.1. 编译1.3.2. 调用1.3.3. 定制化2. OpenBLAS实现2.1. TOP_DIR2.2. 软件层次2.3. Interface层2.4. driver层2.5. kernel层2.6. 测试3. OpenBLAS的特点4. 疑问5. 附录1 reference6. 附录2 背景概念6.1. SMT & HT6.2. SMP1. 什么是.
复制链接

扫一扫