文献阅读
文章平均质量分 86
要努力学习鸭
这个作者很懒,什么都没留下…
展开
-
一些查找论文及其源码的方法
提供一些查找论文、查找论文源代码的方法原创 2023-06-20 23:51:13 · 6288 阅读 · 0 评论 -
文献阅读(11):同步数据流SDF
简要介绍了同步数据流的概念以及用处,以及SDF单处理器、多处理器静态调度。原创 2023-03-19 17:19:09 · 508 阅读 · 1 评论 -
文献阅读(10):深度神经网络 FPGA 设计
论文从多个方面介绍了深度神经网络和FPGA以及二者结合的应用热点;总结了基于FPGA的深度神经网络的设计思路与未来方向;归纳了FPGA相关设计的评价指标;分析了影响FPGA应用于深度神经网络的因素。原创 2023-02-05 22:37:51 · 680 阅读 · 1 评论 -
文献阅读(9): NMC FPGA Architecture
基于NMC(近内存计算)的FPGA加速,基于深度神经网络模型参数量大,并且FPGA中的内存与处理器是分隔的,这就意味着DNN需要传输大量参数,导致巨大的能量消耗。近内存计算是最近热门的一种加快神经网络计算的方法,为了降低高功率开销,论文提出的NMC FPGA架构通过开发各种神经网络组件(CONV、FC、POOL)来构建神经网络模型,然后通过使用VTR来映射到NMC FPGA平台。提出的架构旨在降低矩阵乘法的功耗,使用NMC FPGA,矩阵计算的能源效率提高、功耗降低以及所用电路面积也有所减少。原创 2023-02-03 22:02:35 · 267 阅读 · 0 评论 -
文献阅读(8):fpgaConvNet(2)
fpgaConvNet是一种特定领域建模框架,采用的是将ConvNet映射到基于FPGA的可重构平台的自动化设计方法。由于深度学习网络计算复杂,难以构建足够的计算基础设施,而fpga适用于构建高性能深度学习系统,并能保证可移植性和可扩展性。神经网络映射到fpga的前提是假设训练已经由软件离线执行,并且类似映射工作大多集中于分类任务,fpgaConvNet也是如此。原创 2023-01-29 17:44:07 · 223 阅读 · 0 评论 -
文献阅读(7):YOLO 检测网络加速
伴随着检测精度的提高,YOLO系列网络的深度以及参数量越来越大,因而需要更大的计算量和内存。文中基于FPGA 验证平台研究并实现了 YOLO系列神经网络的加速计算模型,使用了动态定点量化、流水线、循环展开、模块融合等策略,提高了fpga计算资源的利用率,降低了数据传输的时延,提高了整体性能。原创 2023-01-26 21:40:17 · 396 阅读 · 0 评论 -
文献阅读(6):AI Deep Learning Accelerator
深度学习在数据分类以及目标检测领域相较于传统机器学习而言具有很大优势,但具有很高的计算复杂度。论文中提出的CNN硬件加速器是一种基于层的体系结构,可以通过重新配置层参数以适应不同的CNN体系结构。提出的可重构人工智能加速器硬件架构,有效地加速了CNN的运行,对于实验选取的神经网络Tiny-Yolo V2,带宽利用率可降低24%。原创 2023-01-15 21:27:30 · 194 阅读 · 0 评论 -
文献阅读(5):Dual-Mode Biometrics Recognition
利用基于FPGA的硬件加速器实现了CNN轻量级模型,用于双模式生物特征识别。所选取的数据集为①手指静脉图像以及②带有虹膜和巩膜的眼睛图像,对数据集进行预处理(选取感兴趣区域以及规范为32x32图像)和数据增强(通过随机平移和旋转获得更多图片,增大数据集),使用CAFFE框架训练分类器以得到模型所需要的加权参数值,最后软硬件协同将权重文件和网络架构文件上传到PYNQ FPGA平台。原创 2023-01-12 20:37:31 · 258 阅读 · 0 评论 -
文献阅读(4):手写数字识别
基于近存储计算的手写数字识别实时检测阵列结构设计图像识别中最经典的问题之一 —— 手写数字识别,使用深度学习中的卷积神经网络进行手写数字识别具有更高的准确率,但随之而来的是更加密集的计算和存储,这些都在限制CNN快速高效地实现。该论文在可重构陈列处理器的基础上,利用NMC阵列和数据并行化计算,实现了CNN计算加速,通过降低处理器和主存之间的数据通信实现了手写数字的实时检测。原创 2023-01-08 18:02:55 · 251 阅读 · 1 评论 -
文献阅读(3):Near-Memory Computing
本文是一篇综述文献,侧重于分析和组织关于近内存计算的大量文献。内存墙的问题一直存在并影响着计算机的性能,近年来随着各个领域均不断产生大量的数据,大量数据并行的情况下,频繁的数据移动会十分影响应用性能。此时将计算单元放置在数据(内存)附近,也就是近内存计算可以有效提升计算机性能。原创 2023-01-06 21:39:31 · 606 阅读 · 1 评论 -
文献阅读(2):KNMC
KNMC: 基于近内存计算的 k-NN 和 k-means 加速器设计K近邻和K均值算法在人工智能领域应用广泛,但由于这两种算法在应用过程中需要不断进行距离计算,不断访问片外DRAM,导致能耗非常大。论文中提出的KNMC是基于近内存计算的可配置加速器,对上述提到的两种算法均实现了有效的性能以及能效提升。KNMC组件,主要包括PE计算部件,片上缓存和 Centroid 模块。Centroid 模块用于实现对质心的更新和新旧质心比较。PE 模块用于计算不同数据间的距离,以及对所产生的结果进行累加。原创 2022-12-31 14:12:43 · 424 阅读 · 0 评论 -
文献阅读(1):fpgaConvNet
由于现如今的人工智能模型越来越大,参数量不断上升,如何低功耗、高性能的进行模型部署成为了重点关注方向。人工智能框架Caffe\Torch等运行在昂贵的GPU加速平台上,而另一选项ASIC芯片的功能在制造后功能固定,缺少灵活性。此时,FPGA由于其强大的计算能力、低功耗性、可定制性以及可重构性等成为了加速深度学习的可选平台。此文章提出的fpgaConvNet,是一种用于在fpga上优化卷积神经网络映射的端到端框架,实现了ConvNets在FPGA上的自动化映射。原创 2022-12-29 23:17:57 · 339 阅读 · 0 评论