卷积神经网络中的Winograd快速卷积算法

最新推荐文章于 2024-02-28 16:37:12 发布

shine-lee

最新推荐文章于 2024-02-28 16:37:12 发布

阅读量4.4k

点赞数 9

分类专栏：深度学习基础

本文链接：https://blog.csdn.net/blogshinelee/article/details/89678775

版权

卷积神经网络中的Winograd快速卷积算法减少了乘法次数，提高运算效率。通过变换矩阵，将1D F(2, 3)卷积转换为较少乘法和加法的操作，1D到2D的扩展进一步减少计算复杂度。在实际应用中，Winograd算法常用于小尺寸卷积核，适用于NCNN、FeatherCNN等推理框架。" 98973107,8694734,Python数据挖掘：预处理实战-数据可视化与空值填充,"['数据挖掘', 'Python', '信息可视化']

摘要由CSDN通过智能技术生成

博客：blog.shinelee.me | 博客园 | CSDN

写在前面

随便翻一翻流行的推理框架（加速器），如NCNN、NNPACK等，可以看到，对于卷积层，大家不约而同地采用了Winograd快速卷积算法，该算法出自CVPR 2016的一篇 paper：Fast Algorithms for Convolutional Neural Networks。

本文将尝试揭开Winograd算法的神秘面纱。

问题定义

将一维卷积运算定义为 $F (m, r)$ ， $m$ 为Output Size， $r$ 为Filter Size，则输入信号的长度为 $m + r - 1$ ，卷积运算是对应位置相乘然后求和，输入信号每个位置至少要参与1次乘法，所以乘法数量最少与输入信号长度相同，记为

$\mu(F(m, r))=m+r-1$

在行列上分别进行一维卷积运算，可得到二维卷积，记为 $F(m\times n, r\times s)$ ，输出为 $m\times n$ ，卷积核为 $r\times s$ ，则输入信号为 $(m + r - 1) (n + s - 1)$ ，乘法数量至少为

$\begin{aligned} \mu(F(m \times n, r \times s)) &=\mu(F(m, r)) \mu(F(n, s)) \\ &=(m+r-1)(n+s-1) \end{aligned}$

若是直接按滑动窗口方式计算卷积，一维时需要 $m\times r$ 次乘法，二维时需要 $m\times n \times r \times s$ 次乘法，远大于上面计算的最少乘法次数。

使用Winograd算法计算卷积快在哪里？一言以蔽之：快在减少了乘法的数量，将乘法数量减少至 $m + r - 1$ 或 $(m + r - 1) (n + s - 1)$ 。

怎么减少的？请看下面的例子。

一个例子 F(2, 3)

先以1维卷积为例，输入信号为 $d=\left[ \begin{array}{llll}{d_{0}} & {d_{1}} & {d_{2}} & {d_{3}}\end{array}\right]^{T}$ ，卷积核为 $g=\left[ \begin{array}{lll}{g_{0}} & {g_{1}} & {g_{2}}\end{array}\right]^{T}$ ，则卷积可写成如下矩阵乘法形式：

$\left[ \begin{array}{lll}{d_{0}} & {d_{1}} & {d_{2}} \\ {d_{1}} & {d_{2}} & {d_{3}}\end{array}\right] \left[ \begin{array}{l}{g_{0}} \\ {g_{1}} \\ {g_{2}}\end{array}\right]=\left[ \begin{array}{c}{r_0} \\ {r_1}\end{array}\right]$

如果是一般的矩阵乘法，则需要6次乘法和4次加法，如下：

$\begin{array}{l}{r_{0}=\left(d_{0} \cdot g_{0}\right)+\left(d_{1} \cdot g_{1}\right)+\left(d_{2} \cdot g_{2}\right)} \\ {r_{1}=\left(d_{1} \cdot g_{0}\right)+\left(d_{2} \cdot g_{1}\right)+\left(d_{3} \cdot g_{2}\right)}\end{array}$