如何理解Winograd卷积

最新推荐文章于 2022-11-28 16:54:12 发布

Jumi爱笑笑

最新推荐文章于 2022-11-28 16:54:12 发布

阅读量932

点赞数 1

本文链接：https://blog.csdn.net/weixin_39326879/article/details/106207168

版权

im2col

首先,我们来看一种快速的卷积方法:im2col
顾名思义,就是把image转换成col,方便矩阵相乘;
在这里插入图片描述
如上图所示,把待卷积的卷积核展开成行向量,把待卷积的图像块展开成列向量,二者相乘即可得到卷积后的结果.
例如，如果大小为[227x227x3]步幅4和填充0的输入与11x11x3滤波器进行卷积，那么我们将在输入中采样[11x11x3]像素块并将每个像素块拉伸为大小 11 * 11 * 3 = 363的列向量。
对于具有步幅4和填充0的大小为227的输入，沿宽度和高度会有（（227-11）/ 4）+1 = 55个结果位置，得到尺寸为[363×3025]的输出矩阵X_col。这里的每列都是伸展的感受野，总共有55 * 55 = 3025个。
CONV层的权重以类似的方式伸展成行。例如，如果有96个大小为[11x11x3]的过滤器，则会得到一个大小为[96 x 363]的矩阵W_row（11x11x3 = 363）。
在这里插入图片描述
在转换图像和内核之后，卷积可以实现为简单的矩阵乘法，在我们的例子中，W_col [96 x 363]乘以X_col [363 x 3025]得到的矩阵[96 x 3025]，最后reshape为[55x55x96]。
2.Winograd算法
假设我们有输入图像f大小为4和过滤器大小为3。
在这里插入图片描述
然后，使用上面介绍的im2col函数将输入图像转换为:

那么，Winograd怎样才能进一步提高速度呢？它舍弃使用点积，而是使用下面的公式计算结果矩阵。

也就是:

重点开来了!!!下面进行拆解:
在这里插入图片描述
关于g的参数计算是可以提前计算的,
这里经过拆解过后,m1+m2+m3=d0g0+d1g1+d2g2
m2-m3-m4=d1g0+d2g1+d3g2
但是比起im2col用了6次乘法,这里只用了4次乘法,乘法次数减少了1.5倍
这样我们就可以得到m1，m2，m3，m4的值。然后用它们来计算卷积而无需计算矩阵的点积。明显，经过这样的变换后，在每个卷积运算时不需要多次计算（g0 + g1 + g2）/ 2和（g0-g1 + g2）/ 2的值，因为滤波器的值是一样的。我们可以在训练网络期间在卷积之前计算一次，并且可以在推理期间预先计算保存。

使用这个算法，我们需要 4次 ADD和4次 MUL操作计算m1，m2，m3，m4，然后基于计算好的m1，m2，m3，m4的值，使用4 个ADD操作得到结果。而在进行普通的点积时，我们将进行6次MUL操作而不是4次。明显Winograd可以将计算成本高昂的MUL操作减少1.5倍，这对速度的提高是非常重要的。
在上面的例子中，我使用了F（4,3），即f（4）和g（3），它需要2次卷积。最小1D算法 F（m，r）与其自身嵌套以获得最小2D算法F（mxm，rxr）。如果我们尝试使用f（4,4）和g（3,3），这需要4次卷积，Winograd算法使用4 * 4 = 16个MUL，对比普通的卷积使用2 * 2 * 9 = 36个MUL，这样可以将MUL减少2.25倍。
参考文章:https://zhuanlan.zhihu.com/p/74567600

Jumi爱笑笑

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
如何理解Winograd卷积

im2col首先,我们来看一种快速的卷积方法:im2col顾名思义,就是把image转换成col,方便矩阵相乘;如上图所示,把待卷积的卷积核展开成行向量,把待卷积的图像块展开成列向量,二者相乘即可得到卷积后的结果.例如，如果大小为[227x227x3]步幅4和填充0的输入与11x11x3滤波器进行卷积，那么我们将在输入中采样[11x11x3]像素块并将每个像素块拉伸为大小 11 * 11 * 3 = 363的列向量。对于具有步幅4和填充0的大小为227的输入，沿宽度和高度会有（（227-11）/
复制链接

扫一扫