CS217 2_BLAS Hardware Accelerators for Machine Learning

wangwangmoon_light

已于 2022-09-18 21:11:41 修改

阅读量424

点赞数

分类专栏： AI_算力文章标签：机器学习线性代数算法

于 2022-09-18 17:57:53 首次发布

本文链接：https://blog.csdn.net/wangwangmoon_light/article/details/126920097

版权

AI_算力专栏收录该内容

12 篇文章 1 订阅

订阅专栏

Goal

Design of hardware architectures for accelerating Machine Learning (ML)
课程目的设计加速ML的硬件结构
仅用于学习目的，有学习参考知乎严同学笔记内容

BLAS, Basic Linear Algebra Subprograms (BLAS)

BLAS

在这里插入图片描述
BLAS库是经典的高性能科学计算数学库接口标准，大部分超算用户在编程时都会调用BLAS库，同类型的线性代数库还有LAPACK以及intel的MKL等等。其中gotoBLAS库和openblas是开源的，

可以下源码来看，BLAS分为3个Level，Level1是向量-向量操作，比如向量加、向量乘等；Level2是矩阵-向量操作；level3是矩阵-矩阵操作。

BLAS Level3

在这里插入图片描述
BLAS Level3的核心实现是基于GEMM，IBM的算法和Power处理器架构能够很好的支持，并且有Fortran版本的BLAS库。

BLAS的复杂度

在这里插入图片描述
三层Level有不同复杂度，访问Mem的次数和计算次数复杂度。
BLAS库操作的复杂度如上图所示，Axpy表示Ax+y，只有复杂度n的操作，GEMV表示矩阵向量乘，有n平方的复杂度；而GEMM则是n的三次方的操作复杂度。同时每操作的访存次数也和n相关。

GEMM

GEMM是线性代数数学库中最核心的计算，也是很多重要应用的核心计算内容。在很多超算应用中很多时候都通过手动优化
在这里插入图片描述

GEMM是三层循环，计算C=C+A*B。所以算法的操作是2n^{3，同时要访问3n}2次内存。那么我们要怎么才能提升这个性能呢

Cache Oblivious/ Recursive GEMM

在这里插入图片描述
很直接的方法是使用cache进行划分处理，可以将A或B或AB的各一部分数据放在cache中，这样就可以减少访问主存的次数。但是这样也不能减少计算次数。

Blocked GEMM – 块处理

在这里插入图片描述
块处理GEMM对一个nxn的矩阵，每次处理大小为N的块，这样对于硬件来看其实处理的是bxb大小的矩阵，b=n/N是分块大小。大小为N的块可以存入cache或其他快速memory中，以便快速读出，计算完成后将结果写回主存。

在这里插入图片描述
gotoBLAS中的GEMM实现就使用了分块算法。从图中我们可以看到三种处理方法。第一种是将A和B矩阵分块，第二种方法是将C和B矩阵分块，第三种方法是将C和A矩阵分块。GEMM的子任务是GEPP或GEMP；最小粒度的任务是GEBP或GEPB或点乘。

GEMM 的计算

在这里插入图片描述
图中示例完成4x4的矩阵GEMM的核心计算如下所述：
rank1更新：
将大小为4x1的a向量（A矩阵的第0列）和大小为1x4的b向量（B矩阵的第0行）相乘，得到4x4的矩阵结果，然后与C矩阵的初始值相加；
然后是循环移动rank1的更新A矩阵的第1列和B矩阵的第1行进行rank1更新，直到A矩阵的最后一列和B矩阵的最后一行进行rank1更新，整个GEMM完成。
在这里插入图片描述

1）下面再从存储的视角观察GEMM的执行过程。首先最基本的是所有数据都在主存中，所以要完成C=C+AB的任务
2）然后在Cache中完成分块的子任务：A按列划分的子矩阵与B按行划分的子矩阵乘积，去更新C的值。
3）Cache中再将向量-向量乘继续细分到A列子矩阵的子行和B行子矩阵的子列进行乘积计算，得到更新后的C矩阵的行。
4）在核心内部寄存器按先列后行顺序更新packed A矩阵读入，在Cache中按先行后列顺序更新packed B矩阵读入。

GEMM Micro-Kernel

在这里插入图片描述

一个MRxNR的计算需要KC次A和B进行乘积更新运算，这也是GEMM微核心的典型循环迭代计算称为块点乘：载入packed A的一列，载入packed B的一行，计算点乘，更新寄存器中的C的老值。

在这里插入图片描述
那为什么不用简单的点乘一个一个元素去更新，而要用块点乘每次更新整个块的方法呢？可以看到浮点操作和访存操作的比值，简单点乘的话约等于1；而块点乘的则远大于1。由于我们希望运算访存比越高越好（这样计算效率就高），所以采用块点乘的方式。
在这里插入图片描述

当矩阵更大包含多个MR或NR的A、B矩阵时，就有两层的外层循环，循环更新步长为MR和NR。外层称为宏核心或内核心，也是通过cache实现的主要方式。
再最后来回顾一下GEMM，完成GEMM将矩阵划分为6级