- 题目:FPGA-based Implementation of a Real-Time Object Recognition System using Convolutional Neural Network
- 时间:2019
- 期刊:TCAS-2(Transactions on Circuits and Systems II: Express Briefs)
- 研究机构:德黑兰大学
1 abstract
实时object recognition,运行Alexnet完成分类任务,512DSP,可以实现198.1GOPs
ov7670摄像头实时输入,224x224,
activation是16比特,权重是8比特
图中有3个memory
- Data Mem: 片上存储,存储input feature和output feature
- Ext Mem: 片外,存储权重
- ARM Mem:片外,存储input image,可以传输到Data Mem
2 架构
两层的并行度,一个是output channel维度上,有32个并行度,也就是说一次来32个kernel
另一个并行度在input channel上,有16个并行度,这16个部分和应该累加起来
32x16=512个DSP
结果送到Rectifier & Shifter unit单元,完成ReLU
全连接层有64个DSP,所以512+64=576个DSP
- 题目:A Resource-Efficient Multiplierless Systolic Array Architecture for Convolutions in Deep Networks
- 时间:2020
- 期刊:TCAS-2(Transactions on Circuits and Systems II: Express Briefs)
- 研究机构:印度理工学院
1 abstract
- 平台:Xilinx Virtex-5 XC5VLX5OT
- 数据集:cifar-10 86.2%精度
本篇论文的主要创新点:
- 利用CORDIC实现无乘法器的卷积策略
- dataflow采用脉动环systolic ring,实现100%的资源利用
- 针对环结构的优化降低了latency减少了memory access