2020-11-25

最新推荐文章于 2022-05-31 08:36:20 发布

Bingrui_Zhao

最新推荐文章于 2022-05-31 08:36:20 发布

阅读量395

点赞数 1

分类专栏： fpga 文章标签：神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Barry__Zhao/article/details/110144292

版权

fpga 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

《Toward an Efficient Deep Pipelined Template-Based Architecture for Accelerating the Entire 2-D and 3-D CNNs on FPGA》

2020年IEEE TCAD&&ICAS的文章，标题很清晰的说明了这篇文章的工作的特点：1.同时在FPGA上实现了2D和3D卷积网络 2.模块化（Template-Based）设计模式 3.基于流水线（Pipelined）技术

这篇文章的内容是从FPGA2018的会议论文《Towards a uniform template-based architecture for accelerating 2D and 3D CNNs on FPGA》中扩展出来的。

本文解决的核心问题：

为具有密集计算量和存储量的3D卷积网络(以及2D卷积网络)设计了FPGA加速方式。

Contributions：

1.基于Winograd算法，设计了一种3D和2D卷积神经网络在FPGA上的统一计算架构。

2.基于混合复用的网络层融合技术、网络层聚类技术、工作负载平衡技术将CNN部署到FPGA中。

3.设计了有效的设计空间探索技术，提升网络层融合效率。

4.基于文中架构实现了VGG-16、VGG-19、C3D、Based3D等网络，速度提升明显。

背景知识：

1.介绍了3D卷积面向的视频分类问题

2.介绍了3D卷积网络与2D卷积网络相似的网络层特性。卷积层占据最多的计算量（Computation-intensive）、全连接层占据大多数存储量（Memory-intensive）。同时指出，网络中间值占据的空间（377.7MB）比网络权重（235.1MB）还多，这意味着卷积层也需要大带宽的存储。

3.Winograd算法

参考博客：https://www.cnblogs.com/shine-lee/p/10906535.html

总体来说，Winograd算法通过减少乘法次数（加法次数会相应增加），来提升卷积计算速度。文中提到，Winograd算法普遍被应用在FPGA的CNN实现中。

实现思路与计算架构

1.设计基于Winograd算法的3D和2D卷积神经网络分块计算方法。

2.Winograd算法的变换矩阵（Transformation matrices）由许多1和-1构成，可以将乘法化简为加法和减法；

一些特殊的乘法\除法（x2、1/4等）可以优化为移位操作。

下图是基本计算单元的逻辑。

3.整体计算架构

Layer Computation Engine（LCE）、Processing Units（PU）、Processing Engines（PE）分别构成三级计算架构

下图是PE计算的伪代码

未完待续。。。。。

该文章带来的启发：

1.要充分利用Vivado HLS的编译指令。

2.Xilinx Ultrascale架构的存储资源可以有效消除片外到片内的数据传输时间。（需要进一步调研）

3.可以利用Winograd算法做一些实验。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
2020-11-25

《Toward an Efficient Deep Pipelined Template-Based Architecture for Accelerating the Entire 2-D and 3-D CNNs on FPGA》2020年IEEE Access的文章，标题很清晰的说明了这篇文章的工作的特点：1.同时在FPGA上实现了2D和3D卷积网络 2.模块化（Template-Based）设计模式 3.基于流水线（Pipelined）技术这篇文章的内容是从FPGA2018的会议论文《Tow
复制链接

扫一扫

专栏目录

Bingrui_Zhao CSDN认证博客专家 CSDN认证企业博客

码龄6年

7: 原创

33万+: 周排名

15万+: 总排名

6681: 访问

: 等级

144: 积分

53: 粉丝

77: 获赞

6: 评论

95: 收藏

私信

关注

热门文章

分类专栏

ZCU102 3篇
fpga 4篇

最新评论

ZCU102 Standalone 显示接口（Displayport/HDMI）血泪调试史
命里难说: 博主，请教一下这个video phy controller的IP txoutclk 这个时钟是能配置吗？它在IP里面有默认频率，想要修改它
ZCU102 Standalone 显示接口（Displayport/HDMI）血泪调试史
Edward1272: 博主用心了
ZYNQ AXI DMA S2MM GPIO控制传输
CSDN-Ada助手: 恭喜您发布了新的博客文章！看到您在探讨ZYNQ AXI DMA SS2M GPIO控制传输方面的研究，感觉您对这个领域有着深入的了解。希望您能继续保持创作的热情，分享更多有价值的知识。或许下一步可以尝试探讨一些实际案例，或者深入分析一些技术细节，让读者能够更好地理解和应用您的研究成果。期待您的下一篇作品！
ZCU102 Standalone 显示接口（Displayport/HDMI）血泪调试史
CSDN-Ada助手: 恭喜您写下了第四篇博客！标题《ZCU102 Standalone 显示接口（Displayport/HDMI）血泪调试史》听起来非常有趣。在这篇博客中，您分享了自己的调试经历，我相信这对其他人来说将非常有帮助。我很高兴看到您持续创作，不断分享您的经验和知识。作为下一步的创作建议，我建议您可以在博客中加入更多关于调试过程中遇到的挑战和解决方案的细节。这样，读者可以更深入地了解您的思考方式，从而更好地应用到自己的项目中。同时，您也可以考虑分享一些关于显示接口其他方面的知识，比如不同接口的特点和适用场景等等。总之，再次恭喜您的创作，并期待您未来更多精彩的博客！请继续保持谦逊和坚持创作，这将会让您的博客更具吸引力和影响力。如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
二维Winograd算法
Herodotus_: 最后整理的推倒，Y=【R0，R1】=【M0，M1，M2，M3】A，这里好像少了一个转置，【R0，R1】应该为行向量，倒数第2行的K一系列向量与D一系列向量都应该为列向量

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。