二维Winograd算法

最新推荐文章于 2023-02-08 17:32:55 发布

Bingrui_Zhao

最新推荐文章于 2023-02-08 17:32:55 发布

阅读量1.2k

点赞数 1

分类专栏： fpga

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Barry__Zhao/article/details/110389411

版权

fpga 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Winograd算法：

该算法在多个相关论文中都被采用了，这里详细记录一下算法原理。

1D卷积：

输入向量： $d=[d$_0$,d$_1$,d$_2$,d$_3$]$

输入卷积核： $k=[k$_0,k$_1,k$_2]$

输出向量： $r=[r$_0,r$_1]$

卷积步长为1，输入向量d长度为4，卷积核长度为3，则输出向量长度为2。

采用普通卷积方式的卷积计算方式如下：

写成矩阵形式为：

显而易见，普通卷积方式需要6次乘法和4次加法。

总结普通卷积的公式如下：

还没总结出来。。。。

1DWinograd算法：

这里只讨论使用方式，不讨论算法本身的推导。

首先将r0和r1拆分如下：

规定以下计算方式，使得最终结果与普通卷积相等：

由于在神经网络推理时，卷积核的值是固定的，所以可以通过预计算将涉及到k的乘法、加法、减法提前计算出来（实际操作中也可以做1/2也可以移位处理）。因此，通过这种拆分方式，计算出r0和r1只需要4次乘法和8次加减法。这样就非常有利于嵌入式平台的实现，这是因为在硬件中，加减法比乘法高效的多，且乘法器资源也是有限的，所以Winorad算法核心思想是用增加加减法次数的代价减少乘法的次数。

根据上述推导总结出1D Winograd卷积计算公式：

其中，G表示卷积核变换矩阵， $B$^T$ 表示输入变换矩阵，g为卷积核，d为输入向量， $A$^T$ 为输出变换矩阵，表示哈达玛积，即矩阵对应位置相乘。

值得一提的是，虽然矩阵形式的卷积与Winograd算法等价，但是在矩阵形式中d是2个3维向量，Winograd算法中的d是4维向量。因此，从另一个角度来说，Winograd算法还有个好处是将输入向量从卷积的二维压到了一维，即可以将任意形如下式中输入排列的矩阵转换为一维输入。

其中g为[x,y,x],d为[A,B,C,D]。

在实际工程中，必须要考虑到，Winograd虽然减少了乘法次数，但是增加了计算方式转换以及内存的要求。

2DWinograd算法：

考虑到实际应用单通道图片是2D维度，因此需要将Winograd算法从1D扩展至2D。

设输入图片尺寸为4x4：

卷积核尺寸为3x3：

计算过程为：

将

那么对应输出矩阵的计算过程为：

仔细观察上述2D卷积过程，对输入矩阵和卷积核划分子矩阵，组织出1DWinograd结构：

即：

根据分块矩阵的性质，整体矩阵的相乘结果，与拆分成子矩阵后对应位置子矩阵的相乘结果一致（需要满足子矩阵的相乘是有意义的），那么就可以直接分块的子矩阵当成一般矩阵的元素处理，那么也就可以套用1DWinograd算法处理分块矩阵：

整理可得：

至此，推得二维Winograd公式。

参考：1.Winograd Convolution 推导 - 从1D到2D

2.一维Winograd算法及其工程实现

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
二维Winograd算法

《High-Performance CNN Accelerator on FPGA Using Unified Winograd-GEMM Architecture》题目很清晰，在FPGA实现基于Winograd和GEMM的CNN算法，作者来自印度。在Abstract中提出，通常CNN的做法是用Winograd算法实现卷积层，用GEMM算法实现全连接层。这篇文章设计了通用计算单元UniWiG，兼容Winograd算法和GEMM算法，降低FPGA的资源消耗。此外，作者总结了使用Winograd算法
复制链接

扫一扫

专栏目录

Bingrui_Zhao CSDN认证博客专家 CSDN认证企业博客

码龄6年

7: 原创

33万+: 周排名

15万+: 总排名

6684: 访问

: 等级

144: 积分

53: 粉丝

77: 获赞

6: 评论

95: 收藏

私信

关注

热门文章

分类专栏

ZCU102 3篇
fpga 4篇

最新评论

ZCU102 Standalone 显示接口（Displayport/HDMI）血泪调试史
命里难说: 博主，请教一下这个video phy controller的IP txoutclk 这个时钟是能配置吗？它在IP里面有默认频率，想要修改它
ZCU102 Standalone 显示接口（Displayport/HDMI）血泪调试史
Edward1272: 博主用心了
ZYNQ AXI DMA S2MM GPIO控制传输
CSDN-Ada助手: 恭喜您发布了新的博客文章！看到您在探讨ZYNQ AXI DMA SS2M GPIO控制传输方面的研究，感觉您对这个领域有着深入的了解。希望您能继续保持创作的热情，分享更多有价值的知识。或许下一步可以尝试探讨一些实际案例，或者深入分析一些技术细节，让读者能够更好地理解和应用您的研究成果。期待您的下一篇作品！
ZCU102 Standalone 显示接口（Displayport/HDMI）血泪调试史
CSDN-Ada助手: 恭喜您写下了第四篇博客！标题《ZCU102 Standalone 显示接口（Displayport/HDMI）血泪调试史》听起来非常有趣。在这篇博客中，您分享了自己的调试经历，我相信这对其他人来说将非常有帮助。我很高兴看到您持续创作，不断分享您的经验和知识。作为下一步的创作建议，我建议您可以在博客中加入更多关于调试过程中遇到的挑战和解决方案的细节。这样，读者可以更深入地了解您的思考方式，从而更好地应用到自己的项目中。同时，您也可以考虑分享一些关于显示接口其他方面的知识，比如不同接口的特点和适用场景等等。总之，再次恭喜您的创作，并期待您未来更多精彩的博客！请继续保持谦逊和坚持创作，这将会让您的博客更具吸引力和影响力。如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
二维Winograd算法
Herodotus_: 最后整理的推倒，Y=【R0，R1】=【M0，M1，M2，M3】A，这里好像少了一个转置，【R0，R1】应该为行向量，倒数第2行的K一系列向量与D一系列向量都应该为列向量

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。