HLS学习笔记——实现卷积层的加速计算

最新推荐文章于 2023-10-08 16:26:47 发布

奥卡姆的剃刀生锈了

最新推荐文章于 2023-10-08 16:26:47 发布

阅读量5.2k

点赞数 11

本文链接：https://blog.csdn.net/qq_36334929/article/details/108627123

版权

软件实现卷积的原理

在这里插入图片描述
上图是卷积计算的原理图

在这里插入图片描述
注意当卷积核在输入的特征图上进行滑动时，需要乘上步进步数

在这里插入图片描述

在对卷积核运算进行硬件加速前，需要对HLS中的一些常用的时间术语进行解释

通过下方两个图可以更好理解上方的这些术语

在这里插入图片描述

卷积运算的各参数取值如下图所示（其中步进步数S为1）

在这里插入图片描述

首先定义三个多维数组
分别代表输入特征图、输出特征图以及卷积核的权值。其中卷积核中的CHout表示卷积核的个数，每个卷积核都是一个三维数组，并且通道数CHin都和输入特征图一致
然后编写卷积运算的循环体代码
其中循环体的顺序为：
Output_Channel --> Input_Channel --> Row --> Column --> Kernel_Row --> kernel_Column
仿真后的性能报告如下图所示

在这里插入图片描述

本文的加速方案是从Channel层面进行展开的。也就是当卷积核在对输入的特征图进行乘法操作时，对每一层Channel的计算作为一个处理元件（ Processing Elements，简称PE），这些PE将进行并行运算。而对每一个单独的PE在进行Pipeline展开。同时对每个待操作的多维数组数组也要在Channel维度上进行展开（Partition），以适应PE的并行计算。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

由上一步Unroll后的结果报告，我们可以观察到，循环体并没有进行Pipeline展开，因此还有进一步优化的余地。下面我们对Outout_Channel和Input_Channel循环体进行Pipeline展开。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

可以看到相邻两次循环之间，Iteration 0的输出与Iteration 1的输入存在一定的读写关系。也就是说下一次循环必须等到上一次循环完成，并将结果写入到RAM中，下一次循环才能读取到上一次的结果，开始下一次的循环。正因为存在这一层的读写关系，所以才不能实现Pipeline来对循环体进行有效的加速。
想要解决这一问题，其实方法也很简单，只需要将循环体的顺序调整一下。将kr和kc的循环与r和c的循环位置调换一下，使得对r和c的循环在整个循环体的内测，就可以避免两次循环之间的读写关系。

在这里插入图片描述