![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
人工智能芯片领域论文精读
文章平均质量分 95
关注人工智能芯片领域,以fpga和asic领域的神经网络加速器为切入点,寻找高质量论文
看不见的罗辑
人工智能芯片方向正在Running的萌新,欢迎大家一起来交流。
后续内容将在WX公众号上同步更新,请关注RFTAE。
WX公众号:RFTAE,又名Run faster than anyone else,即跑得比谁都快,希望大家都能跑得比谁都快,实现自己的理想或愿望...
展开
-
论文精读-ViA A Novel Vision-Transformer AcceleratorBased on FPGA
自谷歌于2017年提出Transformer以来,它在自然语言处理(NLP)方面取得了重大进展。然而,不断增加的成本是大量的计算和参数。为了有效地处理NLP任务,前人针对FPGA中的变压器模型设计并提出了一些加速器结构。现在,Transformer的发展也对计算机视觉(CV)产生了影响,并在各种图像任务中迅速超越了卷积神经网络(cnn)。CV中使用的图像数据与NLP中的序列数据存在明显差异。这两个领域中包含变压器单元的模型中的细节也有所不同。数据方面的差异带来了局部性的问题。原创 2024-05-02 15:26:08 · 935 阅读 · 0 评论 -
论文精读-ReTransformer ReRAM-based Processing-in-MemoryArchitecture for Transformer Acceleration
Transformer已经成为一种流行的深度神经网络(DNN)模型,用于神经语言处理(NLP)应用,并在神经机器翻译、实体识别等方面表现出优异的性能。然而,其在自回归解码器中的规模化点积注意机制在推理过程中带来了性能瓶颈。Transformer也是计算和内存密集型的,需要硬件加速解决方案。原创 2024-05-05 23:47:17 · 694 阅读 · 3 评论 -
论文精读-CHARM Composing Heterogeneous AcceleRators for MatrixMultiply on Versal ACAP Architecture
密集矩阵乘法(Dense matrix multiply, MM)是深度学习应用中使用最多的核函数之一。为了应对这些应用的高计算需求,具有FPGA和专用ASIC加速器的异构架构已经成为有前途的平台。例如,AMD/赛灵思通用ACAP架构结合了通用CPU内核和可编程逻辑,以及针对AI/ML优化的AI Engine处理器。由400个AI Engine处理器组成的阵列以1ghz的频率运行,可为32位浮点(fp32)数据提供高达6.4 TFLOPs的性能。然而,机器学习模型通常同时包含大型和小型MM操作。原创 2024-05-04 13:28:08 · 1058 阅读 · 0 评论 -
论文精读-基于FPGA的卷积神经网络和视觉Transformer通用加速器
针对计算机视觉领域中基于现场可编程逻辑门阵列(FPGA)的传统卷积神经网(CNN)络加速器不适配视 觉Transformer网络的问题,该文提出一种面向卷积神经网络和Transformer的通用FPGA加速器。首先,根据卷 积和注意力机制的计算特征,提出一种面向FPGA的通用计算映射方法;其次,提出一种非线性与归一化加速单 元,为计算机视觉神经网络模型中的多种非线性和归一化操作提供加速支持;然后,在Xilinx XCVU37P FP- GA上实现了加速器设计。原创 2024-05-01 13:04:16 · 1274 阅读 · 0 评论 -
论文精读-存内计算芯片研究进展及应用
随着数据快速增长,冯诺依曼架构内存墙成为计算性能进一步提升的关键瓶颈。新型存算一体架构(包 括存内计算(IMC)架构与近存计算(NMC)架构),有望打破冯诺依曼架构瓶颈,大幅提高算力和能效。该文介绍了 存算一体芯片的发展历程、研究现状以及基于各类存储器介质(如传统存储器DRAM, SRAM和Flash和新型非易 失性存储器ReRAM, PCM, MRAM, FeFET等)的存内计算基本原理、优势与面临的问题。然后,以知存科技 WTM2101量产芯片为例,重点介绍了存算一体芯片的电路结构与应用现状。原创 2024-05-06 11:59:11 · 556 阅读 · 0 评论