【ZYNQ7020_实现yoloV3】加法器的实现

风中的小羊

已于 2024-02-08 17:16:41 修改

阅读量944

点赞数 5

文章标签： YOLO

于 2024-02-08 17:13:57 首次发布

本文链接：https://blog.csdn.net/vskjrv/article/details/136080542

版权

本文探讨了在C++代码中实现向量加法函数vector_add_top的优化过程，从1.0版本的unroll展开受限于硬件双端口RAM性能，到2.0版本的全展开导致资源过大，再到3.0版本的局部展开策略，强调了unroll与数据展开结合的重要性以提高性能并减少时钟周期。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.0版本

add_top.cpp

#include "add_top.h"

#define MAXNUM 50

void vector_add_top(D32 A[MAXNUM],D32 B[MAXNUM],D32 C[MAXNUM])
{
	for(int i=0;i<MAXNUM;i++)
	{
		#pragma HLS UNROLL
		C[i] = A[i]+B[i];
	}

}

add_top.h

#include "ap_fixed.h"
typedef ap_fixed<32,16,AP_RND,AP_SAT> D32;

资源消耗
在这里插入图片描述

问题：这里已经是使用unroll将其展开了，但是还是需要26个时钟周期，原因是没有考虑到硬件问题
在这里插入图片描述
通过分析发现，一个时钟周期最多读两个数据，这里是因为双端口ram最多一次读两个。
关键:RAM最多是双端口，支持两个数据的同时读写

改进版本2.0

把所有数据完全展开
在这里插入图片描述
从资源可以看出，0个周期就可以实现，完全使用组合逻辑电路，但是资源消耗特别大。

改进版本3.0

使用部分展开，2个为一个组，可以看到，时钟直接比1.0缩小了一半。
在这里插入图片描述

在这里插入图片描述
所以，UNROLL要配合数据展开方法才能更好的优化。

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

风中的小羊

关注关注

5
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

yolov3-tiny神经网络FPGA（ZYNQ7020）实现

QQ_778132974的博客

01-10

1万+

本文介绍使用ZYNQ实现yolov3-tiny，下图为ZYNQ上ARM与FPGA交互框图：通过HLS将设计得每层网络进行封装IP核，在vivado进行调用：下图为the convolution, accumulation, max pooling, upsample and yolo blocks之间得连接。下图为vivado上设计block框图：下图对其中一个模块yolo_acc模块得仿真图：本文有完整工程代码及仿真测试代码！ ...

ZYNQ设计实现Yolov4详解

QQ_778132974的博客

01-19

600

YouOnlyLookOnceversion4（Yolov4）是一种先进的目标检测系统，于2020年推出。作为Yolo系列算法的最新版本，Yolov4继承了其前代版本的优点，并在此基础上进行了多项改进，使得其性能得到了显著提升。Yolov4基于深度卷积神经网络，能够高精度实时检测图像中的目标。它使用单个神经网络，输入图像并输出所有目标的边界框和类别概率。增加网络的深度和宽度：以获得更好的特征表示。整合多种先进的目标检测技术。

参与评论您还未登录，请先登录后发表或查看评论

【调研】YOLO算法在FPGA/ZYNQ上的部署与加速

最新发布

凡森

04-04

646

FINN 是 AMD 研究与高级开发部门综合通信和人工智能实验室开发的机器学习框架。它为在 FPGA 上探索和实施量化神经网络推理解决方案提供了端到端流程。FINN 生成数据流架构作为空间中实施的自定义网络的物理表示。它不是通用的 DNN 加速解决方案，而是依赖于协同设计和设计空间探索来进行量化和并行化调整，从而根据资源和性能要求优化解决方案。

ZYNQ实现yolov3-tiny算法，有各个模块实现的工程及全套代码。

04-11

ZYNQ实现yolov3-tiny算法，有各个模块实现的工程及全套代码，包括下面几个部分yolo_acc,yolo_conv,yolo_max_pool,yolo_upsamp,yolo_yolo这几个模块。

【ZYNQ7020_实现yoloV3】乘法器的实现

vskjrv的博客

02-08

706

三种方法各有优略，float精度高，int占用资源少，顶点数介于两者之间，具体使用哪个方法看后面的资源占用情况。

基于小型Zynq SoC硬件加速的改进TINY YOLO实时车辆检测算法实现

05-13

针对TINY YOLO车辆检测算法计算量过大,且在小型嵌入式系统中难以达到实时检测要求的问题。利用小型Zynq SoC系统的架构优势以及TINY YOLO的网络权值中存在大量接近零的权值参数这一特点,提出硬件并行加速的改进算法,称为浓缩小型深度网络(Xerantic-TINY YOLO,X-TINY YOLO)车辆检测算

基于zynq7000的SDSOC的yolo人脸识别（环境篇）

ZZ2588的博客

12-16

4250

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么？二、使用步骤 1.引入库 2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：一、SDSOC简介以及其与zynq的关系二、环境的搭建三、SD卡的分盘四、启动SDSOC 五.

ZYNQ7045之YOLO部署——FPGA-ZYNQ Soc实战笔记1

m0_69082048的博客

10-30

3350

输入时固定的，因为存在全连接层，网络有24层卷积，2个全连接层，包含大量1x1卷积，最终7x7x30表示，7x7个各自，每个格子有30个数据，30个数据包含两个部分1：位置信息（第一个候选框中心点x） 2：预测中心点纵坐标 y 3：候选框W宽度 4：高度H5：第一个候选框置信度6：位置信息（第二个候选框中心点x） 7：预测中心点纵坐标 y 8：候选框W宽度 9：高度H10：第一个候选框置信度11~20：类别信息以及最后的损失函数。

目标检测YOLO实战应用案例100讲-智能目标检测系统在FPGA中的设计与实现

qq_36130719的博客

06-06

2917

本文结合FPGA芯片的高并行、低功耗、可重配置等优势，对基于卷积神经网络结构的目标检测算法，在端侧场景下的加速与部署进行研究与实现。本章节对本文涉及到的基本理论知识与技术手段进行介绍，为后续系统的方案分析与系统设计奠定理论基础。首先，介绍了卷积神经网络的基本组成部分及其原理。然后，对FPGA及其开发技术进行简单介绍。最后，对当前常用的部分基于FPGA的卷积神经网络加速方法进行概述。

目标检测YOLO实战应用案例100讲-基于FPGA的目标检测硬件加速技术及其应用研究(中)

qq_36130719的博客

04-29

856

数据预处理主要包括数据增强和基础变换，输入图像经过良好的预处理，可以大幅提升模型的泛化能力和性能。定点量化，同时也使用了大量的硬件资源，导致其功耗极高，虽然其能效比优于本设计，但其总体功耗并不适用于低功耗的场景；由于YOLO v2网络首层的输入特征图尺寸为，而从DRAM中读取的输入图像尺寸不一定符合该大小，因此需要对输入的RGB图像的尺寸进。到更高的速度，减少模型过拟合的发生。这种结构可以使模型达。硬件实现中，我们将完成这样的一组乘累加运算的单元，称为一个处理单元（process element，

目标检测YOLO实战应用案例100讲-基于FPGA的目标检测硬件加速技术及其应用研究

qq_36130719的博客

05-24

2203

随着社会的发展和信息科技的提高，人们在实际工作中已经普遍使用计算机视觉技术获取数据信息，正是这种不断扩大的市场需求促进计算机视觉技术不断创新，以适应不同的应用场景，也导致了计算机视觉技术发展方向繁多，出现多种学科交叉的现状。视觉作为一种感知外部世界的重要途径，它主要依靠不断的捕捉图像画面来获取信息。而目标检测作为计算机视觉技术中最基本的和最主要的任务之一，它的目的是对图像中用户所感兴趣的目标完成位置信息的确认以及所属类别的分类，由于目标检测的效果在很大程度上影响后续视觉处理任务的进。

开源项目-用yolov3实现了轻量级人脸检测.zip

05-19

加入关键点的darknet训练框架，使用yolov3实现了轻量级的人脸检测。借鉴AlexeyAB大神的 darknet 做适量修改。使用scripts/retinaface2yololandmark.py脚本将retinaface的标记文件转为yolo的格式使用其他编译训练都和原版darknet相同使用yolo_landmark.py进行测试，更换里面的模型配置文件即可。

目标检测YOLO实战应用案例100讲-基于印刷缺陷检测的嵌入式图像处理(续)

qq_36130719的博客

01-23

393

1）硬件资源本设计是基于嵌入式硬件平台为Xilinx推出的异构可扩展处理平台：ZYNQ-7000 SoC(System-on-Chip,片上系统)系列，芯片型号为XC7Z020CLG400-2(简称ZYNQ 7020), 该硬件平台的PS端采用了双核ARM Cortex-A9处理器，而PL端则使用了可编程逻辑门阵列FPGA。这个系统最大的优点在于，它能够在嵌入式平台有限的资源和空间下，兼具ARM处理器高效任务调度和FPGA硬件平台并行计算的能力。

目标检测YOLO实战应用案例100讲-基于FPGA的目标检测硬件加速技术及其应用研究(下)

qq_36130719的博客

05-02

736

PL侧的静态功耗为0.203w，PS侧功耗为1.284w，MMCM的功耗为0.122w，DSP的功耗为0.201w，BRAM的功耗为0.1w，逻辑翻转、普通信号和时钟的动态功耗分别为0.301w、所用的时间为1.608352490421456秒，图中的Out[18]则是测试图片的最终检测输出结果，可以看到系统检测到图中的马的概率为0.94、人的概率为0.94、狗的概率为0.88。均贴合草莓，位置检测准确；可以看到，对于成熟的草莓的检测效果是很好的，准确率可以达到95%，但是检测未成熟的草莓的准确。

yolov3-tiny移植到zynq020概述

go1314a的专栏

08-06

5347

“yolov3-tiny移植zynq020概述。” 01 yolov3-tiny模型 yolo是目前目标检测落地到硬件中比较常用的AI模型，因为yolo标准版模型参数和计算量太大，所以目前暂时在zynq020上移植的是tiny版本，这里选用yolov3-tiny来移植，输入模型的图像源320x320@15Hz，模型各层如下（其中C是训练时的类别）： 02 模型pytorch处理 yolo模型需要经过训练（检测多少个类别）和int8量化（暂时未...

基于PYNQ-Z2（7020）复现Yolo_v2