脉动阵列

最新推荐文章于 2024-12-23 00:10:19 发布

apple^?

最新推荐文章于 2024-12-23 00:10:19 发布

阅读量1.5w

点赞数 16

分类专栏：电子电路

本文链接：https://blog.csdn.net/anpingbo/article/details/88883306

版权

电子电路专栏收录该内容

9 篇文章

订阅专栏

脉动阵列是一个比较古老的概念，早在1982年就有了，可是，最近google的TPU采用了这个结构，脉动阵列又火了起来。我也是从今年新入职了一家公司后才接触到的，对比之前自己设计的AI架构，脉动阵列确实有很多优势。所以本文从传统AI计算架构和脉动阵列的对比来说明脉动阵列的设计方法和优势。

卷积运算

在正式介绍AI硬件架构前，简单讲一下卷积运算。因为卷积运算在CNN中发挥着重要作用，也是CNN中计算量最大的步骤。比如对于一个8x5大小的图像，用3x3卷积核进行卷积，首先将图像补充到10x7大小，然后移动3x3卷积核，得到卷积后的图像。

用公式表示这种运算为：

在神经网络中有大量的卷积运算，在每一层网络中，有M个输入图片（称之为feature map，对应着一个输入通道），N个输出feature map（N个输出通道），M个输入会分别进行卷积运算然后求和，获得一幅输出map。那么需要的卷积核数量就是M*N。经过仔细观察和思考，可以看出每个卷积核会被M个图片共享，脉动阵列正是利用了共享数据。

算法E.png

非脉动计算架构

这是我最开始考虑的一种方案，主要思想是在输入和输出通道上实现并行运算。就针对上述例子（3x4卷积层），使用12个运算通道，每个通道完成卷积运算和累加，然后每3个通道完成求和，得到一个输出map。如下图：

QQ截图20190127205030.png

假设feature map为x(I,j)，卷积核为W(3x3)，那么PE中乘积和累加可以表示为：

输出通道结果可以表示为：

非脉动结构feature map的fanout比较大，上述中同一个feature map被三个PE共用，fanout为3，如果输入通道更大那么fanout会更大，大的fanout会影响FPGA时序。同时完成卷积运算后需要在输入通道之间增加额外的加法树。同时对于不同层输入输出通道数不一样，加法树就会变得很复杂。而接下来我们看到脉动阵列具有灵活的配置以及较好的时序性。

脉动阵列

针对上述的方案是否能够进行改进呢？可以首先想到能不能去除加法树，将输入通道的求和也使用累加来实现。那就变成只有一个PE完成卷积运算以及不同通道的求和。但是一个PE却降低了并行度，那么可以想到增加串行的PE数量来增加输入并行度，即演变为一列PE来实现输入通道求和。由于PE排序上的空间限制，导致后边一个PE的计算相比于前一个PE要有1个周期延时，如果将数据从从PE间的移动打一拍，那正好可以在第二个PE计算出来的同时完成和前一个PE的求和，这就是脉动的关键所在。

QQ截图20190127205541.png

增加多列脉动结构，就构成了脉动矩阵，比如针对上述网络层，就增加4列，那么就是一个3X4矩阵阵列。因为每一列使用相同的feature map，那么可以将feature map数据灌入的方向从沿着列改到沿着行。其中Wij是卷积核，i对应输入通道序号，j对应输出通道序号。脉动阵列每一个相邻PE之间有一个时钟周期延时，x1，x2，x3进入PE的时间也延时一个周期，输出数据也相差一个周期，但是整个计算实现了流水同步。并行度也在3x4=12。

QQ截图20190127205244.png