基于FPGA的卷积网络加速设计

最新推荐文章于 2022-09-29 20:39:55 发布

置顶 hunterlew

最新推荐文章于 2022-09-29 20:39:55 发布

阅读量5.9k

点赞数 2

分类专栏：深度学习 FPGA学习文章标签：深度学习 FPGA 加速 CNN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hunterlew/article/details/79104004

版权

FPGA学习同时被 2 个专栏收录

23 篇文章

订阅专栏

18 篇文章

订阅专栏

答辩完了，放上来毕设的最后一部分内容，CNN的硬件加速。大多数论文采用的FPGA加速大多基于HLS或是OpenCL，用高级语言编写的。我没有接触过，不知道转化为底层HDL效率如何。本科学了verilog，因此还是用的verilog HDL硬件语言设计的。

为了权衡系统资源及计算速度，制定了以下并行策略，如图所示。首先，第一层卷积单独采用移位寄存器结构加速（可以参考相关论文，使用大量乘法器，以计算资源换取速度，实现每个周期输出一个卷积结果），其它层卷积采用纯流水线的结构（即每个通道为一个乘法器+一个加法器）。由于带宽限制，第二层卷积采用通道分组策略，排队输出，最后完成通道合并。针对两款FPGA设定不同的组数。这种策略能实现组间的资源复用，减少资源消耗。

FPGA加速还有很多优化的空间。比如流水线以及资源复用这块，可以发挥FPGA的优势；量化这块，可以采用较小位数，牺牲部分精度而换取资源和速度；裁剪这块，结合全局均值池化、1*1卷积、剪枝等参数裁剪方法，减少参数移植；卷积结构这块，可以考虑像caffe那种使用toplitz矩阵形式的卷积计算，同样是资源换取速度的方法等等。

博客等级

码龄13年

128
原创

249
点赞

798
收藏

426
粉丝

关注

私信

热门文章

分类专栏

最新评论

基于verilog的曼彻斯特编译码
湫i: 博主仿真的datain默认是与时钟同步的，实际数据进来需要打拍同步，如果打两拍同步的话，曼码最小脉宽至少是2倍时钟周期才可以，也就是时钟是曼码频率的4倍
Windows下pytorch的安装与入门
CSDN-Ada助手: 非常感谢CSDN博主分享的关于Windows下pytorch的安装与入门的博客，我觉得这篇文章非常有用，对想要入门pytorch的用户会有很大的帮助。下一篇博客，我建议可以继续介绍pytorch的基础知识，比如常用的神经网络模型的实现以及优化器的选择等，相信会有更多读者受益。期待您的新作品！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
dsp EMIF接口
n leaf: FLASH_ADR2地址的定义有吗？应该不是0×555这样吧
red5视频直播初探
qq_41544746: 所以你讲了个寂寞
dsp EDMA学习与疑问
zhenyuanzi001: 讲得真好，学习了。不过楼主最后引用的《EDMA使用详解》，我百度了没找到，能否分享下。非常感谢啊

大家在看

最新文章

目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。