文献阅读（26）

tiaozhanzhe1900

于 2019-10-21 20:50:08 发布

阅读量443

点赞数 1

分类专栏： NPU

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tiaozhanzhe1900/article/details/102658680

版权

NPU 专栏收录该内容

76 篇文章

订阅专栏

本文介绍了一种用于FPGA的CNN模型编译技术，该技术能够将CNN模型转换为可扩展的RTL代码，加速卷积神经网络的运行。论文详细阐述了包括卷积、池化、归一化等模块的编译策略，并展示了在Altera FPGA上实现AlexNet和NIN模型的效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

1 缩写 & 引用
2 abstract & introduction
3 compilation and parallel computation of scalable CNN modules
4 FPGA实现

题目：Scalable and Modularized RTL Compilation of Convolutional Neural Networks onto FPGA
时间：2016
会议：(International Conference on Field Programmable Logic and Applications (FPL)
研究机构：亚利桑那州立大学Yufei Ma

1 缩写 & 引用

LRN: local response normalization
cccp: convolution layer with K=1

2 abstract & introduction

本篇论文的贡献：

CNN RTL编译器，输入CNN模型，输出模块化的，可扩展的RTL代码
acceleration system generated by编译器

overview of CNN operations and structures
convolution
pooling
normalization
fully-connected

3 compilation and parallel computation of scalable CNN modules

3.1 strategy to accelerate convolution

一共就这四个循环，作者先是展开loop3，再展开loop4

3.2 scalable convolution module(CONV)

控制逻辑有很多counter可以控制卷积的滑动，每个counter分别取决于kernel size, feature size和迭代次数
这些counter的组合产生地址可以读input
在这里插入图片描述
为了提高硬件利用率，最好是不同的CONV模块可以分给不同的层，这样可以实现整除

3.3 pooling module(POOL)

控制逻辑一样，也是扫描input feature来产生read/write地址，计算模块即编程取平均值或者取max

3.4 normalization module

需要从临近的channel中取数计算，非线性的操作通过查找表来计算
在这里插入图片描述

3.5 inner-product module

其实就是一个行向量乘矩阵，得到一个行向量，这里不用加法树，行向量来一个数就跟矩阵的一行相乘，后面的数在上面不断累加

3.6 DMA Configuratin module

用了Altera的Modular Scatter Gather DMA(mSGDMA)的IP

4 FPGA实现

总体框架图如下：
NIOS-II可以将weight和input image从flash搬到DDR3上，mSGDMA的IP负责将数据从DDR3搬运到片上的memory
在这里插入图片描述
网络是一层一层计算的
feature data routers是由很多组的multiplexer组成的，可以

convey feature data and address signals from different modules into feature buffers
fetch the stored data to the multiplier bank or directly into the corresponding modules

最后在Altera的板子上实现AlexNet和NIN的CNN模型

tiaozhanzhe1900

博客等级

码龄7年

207
原创

120
点赞

426
收藏

369
粉丝

关注

私信

热门文章

分类专栏

芯片互联 45篇
CGRA 7篇
算法论文 13篇
编译优化 17篇
二专毕设 6篇
操作系统 3篇
提纲总结 8篇
NPU 76篇
课堂笔记 16篇
FPGA 5篇
mooc 4篇

展开全部收起

最新评论

Arteris Training
#Neverland: 你好，有相关的文档可以分享下吗？
文献阅读（208）multi-FPGA
Mendelay: 我对此非常疑惑，望大佬讲讲
文献阅读（208）multi-FPGA
Mendelay: 我顺着DFX的思路，计算了一下DFX的延迟时间。在文中有一个这样的论述，Each of the FP16 multiplier and adder is mapped to one digital signal processing slice (DSP) and two DSPs.The multiplier takes 6 cycles, and the adder takes 11 cycles. 那这里计算至少需要17cycles. 从文中还可以看到200MHz，那实际上如果是16x64的一次计算，那么算力为： 200,000,000 × 16 × 64 / 17 = 12 GFLOPs(FP16)。也太低了吧，根本达不到标称的184GFLOPs。
文献阅读（108）二值化神经网络
CSDN-Ada助手: 神经网络中的递归神经网络有哪些应用？
Arteris Training
qq_45498816: 您好，Init IP与多个不同target并发访问这个场景是怎么发生的呢？我没太理解

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。