用FPGA实现深度卷积神经网络(5)


    先放一张仿真图


yolo的网路将输入图像改为24x24,一共仿真2层,需要428us,由此推算若输入图像为448x448,则仿真两层需要149ms,速度上是不能接受的。因此作为yolo网络在功能上实现了,但是速度远没有达到高速。

    作为version 1,我设了100M时钟,并行度为8,总的来说并行度太小,但是胜在设计比较简单。

    接下来就是设计version 2,对于ZCU102(总的DSP为2520)计划设计并行度为128(每个PE需要9个DSP,所需DSP为128x9=1152),并将时钟提高至200M。当然这要求结构更加复杂,数据位宽转化是必不可少的。

    然后分享两篇论文:

    a) Evaluating Fast Algorithms for Convolutional Neural Networks on FPGAs

    b) A High-Efficiency Runtime Reconfigurable IP for CNN Acceleration on a Mid-Range All-Programmable SoC

    所以敬请期待v2的结构吧!

  • 1
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 10
    评论
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值