用FPGA实现深度卷积神经网络（5）

最新推荐文章于 2024-07-07 17:59:39 发布

会思考的程序猿

最新推荐文章于 2024-07-07 17:59:39 发布

阅读量9k

点赞数 1

文章标签： fpga

本文链接：https://blog.csdn.net/cj1343395571/article/details/80678378

版权

先放一张仿真图

yolo的网路将输入图像改为24x24，一共仿真2层，需要428us，由此推算若输入图像为448x448，则仿真两层需要149ms，速度上是不能接受的。因此作为yolo网络在功能上实现了，但是速度远没有达到高速。

作为version 1，我设了100M时钟，并行度为8，总的来说并行度太小，但是胜在设计比较简单。

接下来就是设计version 2，对于ＺCU102（总的DSP为2520）计划设计并行度为128（每个PE需要9个DSP，所需DSP为128x9=1152），并将时钟提高至200M。当然这要求结构更加复杂，数据位宽转化是必不可少的。

然后分享两篇论文：

a) Evaluating Fast Algorithms for Convolutional Neural Networks on FPGAs

b) A High-Efficiency Runtime Reconfigurable IP for CNN Acceleration on a Mid-Range All-Programmable SoC

所以敬请期待v2的结构吧！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注