芯片加速器 Accelerator

Carol0630

已于 2022-08-09 16:48:37 修改

阅读量1.7k

点赞数

分类专栏：硬件文章标签：芯片加速器

于 2022-08-09 15:06:28 首次发布

本文链接：https://blog.csdn.net/Carol0630/article/details/126248060

版权

加速器是专用硬件，用于提升特定操作的性能和能效。文章探讨了数据驱动的加速器，如向量和AI加速器，算法驱动的加速器，如压缩和加密加速器，以及可编程加速器，如FPGA。AI加速器在处理神经网络任务时尤其关键。随着摩尔定律放缓，加速器重新受到关注，以应对单核性能提升的挑战。文章详细介绍了卷积神经网络（CNN）加速器的设计和优化，强调了量化算法在模型压缩和硬件友好性方面的作用，同时讨论了不同类型的硬件加速器在图像处理、加密和信号处理中的应用。

摘要由CSDN通过智能技术生成

加速器 (Accelerator or Offload Engine) 是一块专用的硬件电路，它可实现各种功能，以便于在执行一组操作时，获得比通用微处理器更高的性能或更好的能效比。通过软件调用加速器对各种操作加速被称为硬件加速。加速器可以显著地提升特定任务的性能。他们通常是连接到系统的一个单独的组件，但是也会被以 ISA 扩展的形式直接集成到处理器中。

一个独特的加速器子集也称为协处理器。区别在于加速器如何与主机处理器交互。想对于协处理器通常连接到主机处理器的内部，然后执行主机处理器传递给其的指令，而通用加速器通常被视为通过接口编程的独立 I / O设备。

加速器的使用不是一个新鲜事。浮点协处理器早在 1980 年代就已经成为加速器适配的早期例子。但是，摩尔定律所实现的更高集成度使公司可以将这些功能集成到主机处理器中，从而使它们没有了用武之地。在此后的几十年中，通用计算机通过登纳德缩放定律和摩尔定律不断提高单核性能。现代 SoC 集成了一系列的加速器，用于诸如加密和压缩之类任务的加速。

但是，到了2000年代后期，登纳德缩放定律崩溃了，单核性能的提高开始减弱。这些缺陷激发了人们对加速器的新兴趣。加速器可以像 ASIC 一样用硅实现，也可以用软硬件实现（Soft hardware is digital logic that is designed to be implemented on reconfigurable hardware such as programmable logic devices instead of being fabricated as an actual integrated circuit. Soft hardware is typically coded in a language like VHDL or Verlog and is designed to be implemented on an FPGA. ）。因为这是与执行密集计算任务的算法的软件代码等效的硬件，所以几乎总是比在通用微处理器上优化的代码具有更高的性能或能效（power efficiency）。

加速器通常分为三类（可能有更多）：

1.数据驱动的加速器

独立于 CPU，对一组数据进行操作的加速器。

向量加速器，用于向量执行大型向量运算的加速器

本发明专利技术提供了一种支持多序列运算的神经网络加速器及加速装置。
本发明专利技术的神经网络加速器包括至少一个多序列处理装置，每个所述多序列处理装置包括运算功能模块和数据连接管理单元，所述运算功能模块包括：至少一个乘法运算模块、至少两个加法运算模块、至少一个寄存器模块、一个逻辑运算模块以及一个激活函数运算模块。
本发明专利技术针对神经网络架构对非网络视觉算法任务算子的低效处理问题，提出了一种能够执行多种非神经网络算子以及支持多种向量序列操作的神经网络加速器架构。
通过设计可线上配置数据操作序列的处理单元，并组合为相应的并行阵列，以实现多种视觉算法并行操作的兼容以及计算效率的提升。以及计算效率的提升。以及计算效率的提升。

AI 加速器，在预测模型（例如人工神经网络）上运行的加速器

AI加速器是一类专门的硬件加速器或计算机系统旨在加速人工智能的应用，尤其是人工神经网络、机器视觉和机器学习。典型应用包括机器人技术，物联网和其他数据密集型或传感器驱动任务的算法。他们往往多核设计和一般集中于低精度算术，新颖的数据流的体系结构或内存中的计算能力。截至2018年，典型的AI 集成电路芯片包含数十亿个MOSFET晶体管。

此类别的设备存在许多特定于供应商的术语，并且这是一种新兴的技术，没有占主导地位的设计。

参考：深度神经网络加速器设计（小白向）

课程：李宏毅2020机器学习深度学习(完整版)国语

参考：基于FPGA的深度学习CNN加速器设计

因为CNN的特有计算模式，通用处理器对于CNN实现效率并不高，不能满足性能要求。因此࿰