【文献精读1】基于FPGA的MobileNet卷积神经网络加速器设计

最新推荐文章于 2024-06-15 09:47:46 发布

Marrioo

最新推荐文章于 2024-06-15 09:47:46 发布

阅读量919

点赞数 13

分类专栏：我爱科研科研爱我文章标签： fpga开发人工智能

本文链接：https://blog.csdn.net/Marrioo/article/details/139331196

版权

该博客详细介绍了基于FPGA的MobileNet硬件加速器设计，探讨了标准卷积和深度可分离卷积的并行策略，包括层间融合的BN处理，并展示了硬件加速模块的设计，包括标准卷积、深度卷积和点卷积模块，以及整体系统框架的构建。针对AXI总线限制和DDR交互进行了讨论。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

研究点：硬件加速FPGA版

针对网络: MobileNet

在这里插入图片描述

并行设计：

①标准卷积层：仅在MobileNet网络第一层，受限于AXI总线（64/16）传输数据给深度卷积运算，

输入通道展开	卷积核展开	输出通道展开	输出特征图展开	并行度
3	9	4	1	108

在这里插入图片描述

②深度可分离卷积层：

在这里插入图片描述

②.1：深度卷积并行设计

输入INPUT： 由表2-2可知，来自两个部分，①标准卷积的输出；②点卷积的输出。采用多路选择器M

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Marrioo

关注关注

13
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【文献精读2】基于FPGA的MobileNet卷积神经网络加速器的设计与研究

Marrioo的博客

05-31

318

誓死消灭所有疑惑！

【论文阅读】A High-Performance CNN Processor Based on FPGA for MobileNets

YuuZhao的博客

01-12

1197

CNN由于参数量巨大难以部署到嵌入式设备上。背景研究的问题两个专用计算引擎： ConV Dwcv ，专用点卷积和深度卷积，显著提高加速器效率。2、设计了一个特殊架构：Channel Augmentation ，提高MobileNets的第一层。3、本文设计的加速器可以灵活部署在不同配置的设备上，可以平衡硬件资源和计算性能。4、我们的加速器运行在ZU2 \ ZU9 MPSoC FPGA5、分类性能 ImageNet 205.3 fps @ ZU2 , 809.8 fps@ZU9。

参与评论您还未登录，请先登录后发表或查看评论

基于FPGA实现的MobileNet V1，FPGA深度学习加速器设计 CNN Accelerators based on FPGAs

是否龍磊磊真的一无所有的博客

11-21

4840

Automatic Generation of Multi-precision Multi-arithmetic CNN Accelerators for FPGAs 最近arXiv上挂出来一篇文章，采用FPGA实现MobileNet V1，并且完全是不借助片外资源，用的是on-chip memory，没有利用off-chip RAM。整个模型在FPGA的内部有限资源上实现的。能够使得帧率在30...

基于FPGA的MobileNet V2卷积神经网络加速器

qq_40268672的博客

09-08

1万+

MobileNet V2介绍 MobileNetV2是在V1基础之上的改进。V1主要思想就是深度可分离卷积。而V2则在V1的基础上，引入了Linear Bottleneck 和 Inverted Residuals。下图是MobileNet V2中的一个基本模块可以看到，该模块由三个卷积组成，第一第三个卷积是标准的1x1卷积，起到升维和降维的作用，而中间的是一个depthwise卷积，每一个卷积层之后，都紧接着一个BN层，以加速网络的收敛。同时，我们观察到，该模块的输入和输出有一个残差连接，即输入和最

探索未来智能边缘：MobileNet在FPGA上的奇妙之旅

热门推荐

qq_40268672的博客

02-27

3万+

简介之前实现了基于FPGA的Winograd CNN加速器(VGG16)和基于FPGA的MobileNet v2加速器，但这两个算法在本质上区别不大:一个是VGG16，另一个是轻量级的MobileNet v2，所实现的功能都是图像分类。因此，为了尝试更多的应用，本文在FPGA上实现了一个目标检测网络----Yolov4 tiny。yolo4 tiny的结构是YOLOv4的精简版，属于轻量化模型，参数只有600万相当于原来的十分之一，这类网络不仅能实现对图像的分类任务，还可以找出目标的位置，因此，更加贴近实

【MobileNetV2硬件加速器工程】MobileNet V2量化方法的研究及使用Pytorch quantization包遇到的问题

qq_26371477的博客

10-05

3697

Pytorch quantization所用的神经网络量化方法为设计用于加速MobileNet V2神经网络的硬件加速器，关键在于如果将用浮点数表示的weight，bias以及input batch等tensor量化成为int8数据类型，以大大降低神经网络的计算复杂度与参数大小。很久很久以前，最原始的量化方法就是将一个训练好的浮点数模型作移位，向右移位n个bit以将浮点数全部转化为整形，由于weight与ifmap都进行移位了，它们相乘的结果相当于移位了2n，故在乘法计算完后，通常在ReLU层又向左

深度神经网络 FPGA 设计与现状

AiteBei的博客

01-04

3923

深度神经网络 FPGA 设计与现状

深度探索：机器学习中的深度可分离卷积算法原理及其应用

qq_51320133的博客

04-24

1454

深度可分离卷积作为一种高效且精准的机器学习算法，成功地在保持模型识别性能的同时，显著降低了计算复杂性和参数量，为深度学习模型在资源有限的环境中的应用开辟了新路径。尽管存在可能损失部分精度以及模型结构固定的局限性，但其在移动端应用、实时视频处理、自动驾驶等领域已展现出巨大潜力。未来，随着硬件加速技术的发展以及对深度可分离卷积理论研究的深入，我们期待看到更多创新的应用和改进方案，进一步推动深度学习技术在实际场景中的广泛应用。

基于FPGA的高效可伸缩的MobileNet加速器实现.pdf

07-13

基于FPGA的高效可伸缩的MobileNet加速器实现.pdf

面向Mobile device的CNN模型手工设计与NAS分析总结，MobileNet V1,V2,V3，Efficient，MNasNet以及Efficient network design

是否龍磊磊真的一无所有的博客

11-13

2591

手工方法和NAS的高效网络模型设计总结与分析这篇文章主要关注对于移动端，资源受限平台的高效神经网络设计(Manually)和搜索(NAS)。高效的CNN设计不只是用在服务器，云端，资源充足的设备上，也逐渐迁移应用到mobile devices，robotics等。这些平台具有内存有限，计算资源一定，对应用延迟敏感等特点。最近的一些文章，已经从耗时，...

学习FPGA之二：云端加速

石头记

04-05

4743

随着互联网，移动互联网，人工智能，物联网（5G），甚至元宇宙的发展，海量的数据越来越多，但是经过有效处理的1%都不到。而数据被称为人工智能时代的石油，数据的处理越来越重要，数据中心的运算，传输是在低层需要支持的重要环节，因此，数据中心市场也逐渐成为了各大半导体与互联网公司的必争之地。一方面，传统FPGA厂商，也就是Intel 和赛灵思在大力发展FPGA作为硬件加速器，用于加速数据的计算和传输。另一方面，互联网公司也纷纷下场，使用FPGA来加速自家的云...

最详细的MobileNet_v1讲解

IT荻的博客

07-06

1万+

其实介绍MobileNetV1（以下简称V1）只有一句话，MobileNetV1就是把VGG中的标准卷积层换成深度可分离卷积就可以了。那么，这个深度可分离卷积是什么？深度可分离卷积深度可分离卷积（depthwise separable convolution），根据史料记载，可追溯到2012年的论文Simplifying ConvNets for Fast Learning，作者提出了可分离...

公开课 | 比MobileNet更高效，微软资深研究员详解基于交错组卷积的高效DNN

CSDN人工智能头条

05-28

4006

卷积神经网络在近几年获得了跨越式的发展，虽然它们在诸如图像识别任务上的效果越来越好，但是随之而来的则是模型复杂度的不断提升。越来越深、越来越复杂的卷积神经网络在训练阶段需要大量存储与计算资源，因此设计高效的卷积神经网络是非常重要和基础的问题，而消除卷积核的冗余性是该问题主要的解决方案。如何消除消除卷积核的冗余性？AI科技大本营邀请到微软亚洲研究院视觉计算组资深研究员王井东，他将在 31 号的直播公...

MobileNets—深度学习模型的加速

AI之路

06-08

3万+

本篇博文来介绍一个深度学习模型加速的算法：MobileNets，可以在基本不影响准确率的前提下大大减少计算时间和参数数量。论文：MobileNets Efficient Convolutional Neural Networks for Mobile Vision Applications 论文链接：https://arxiv.org/abs/1704.04861算法概述：深度学习网络广泛应用在图

CoreML实现的MobileNet

陈海峰的博客

06-09

2799

MobileNet 是谷歌在 2017 年 4 月发表的一项研究，它是一种高效、小尺寸的神经网络架构，适用于构建手机/移动设备上的低延迟深度学习应用，并可以完成多种不同任务。下面是MobileNet的CoreML实现 https://github.com/hollance/MobileNet-CoreML

人工智能

06-18

3124

全球人工智能 文章来源：arxiv.org 翻译：林一鸣文章投稿：news@top25.cn MobileNets: 面向手机视觉的高性能卷积网络摘要我们提供一类称为MobileNets的高效模型，用于移动和嵌入式视觉应用。 MobileNets是基于一个流线型的架构，它使用深度可分离的卷积来构建轻量级的深层神经网络。我们引入两个简单的全局超参数，在延迟

TensorFlow MobileNet

陈海峰的博客

07-03

8147

MobileNet_v1 MobileNets are small, low-latency, low-power models parameterized to meet the resource constraints of a variety of use cases. They can be built upon for classification, detection, em

深入学习卷积神经网络（CNN）外文文献精读

1. 卷积神经网络（CNN）的定义和作用：一种深度学习模型，尤其适合于图像和视频数据处理。 2. CNN的核心组件： - 卷积层：通过滤波器扫描输入数据，提取局部特征。 - 池化层：降低特征维度，减少计算量，保留关键...