对比脉动架构、TPUNvidia、GPU tensorcore

最新推荐文章于 2025-04-03 11:33:30 发布

我叫夏满满

最新推荐文章于 2025-04-03 11:33:30 发布

阅读量2.3k

点赞数

文章标签： TPU GPU 脉动架构神经网络

本文链接：https://blog.csdn.net/qq_42479394/article/details/119102565

版权

1.CPU和GPU

CPU（CentralProcessing Unit）中央处理器，是一块超大规模的集成电路，主要逻辑架构包括控制单元Control，运算单元ALU和高速缓冲存储器（Cache）及实现它们之间联系的数据（Data）、控制及状态的总线（Bus）。简单说，就是计算单元、控制单元和存储单元。

架构图如下所示

CPU遵循的是冯·诺依曼架构，其核心是存储程序/数据、串行顺序执行。因此CPU的架构中需要大量的空间去放置存储单元（Cache）和控制单元（Control），相比之下计算单元（ALU）只占据了很小的一部分，所以CPU在进行大规模并行计算方面受到限制，相对而言更擅长于处理逻辑控制。

CPU无法做到大量数据并行计算的能力，但GPU可以。

GPU（GraphicsProcessing Unit），即图形处理器，是一种由大量运算单元组成的大规模并行计算架构，早先由CPU中分出来专门用于处理图像并行计算数据，专为同时处理多重并行计算任务而设计。

GPU中也包含基本的计算单元、控制单元和存储单元，但GPU的架构与CPU有很大不同，其架构图如下所示。

2.脉动架构

对于为什么要设计这样的架构，作者给出了三个理由：

1.Simple and regular design：可以说，简单和规则是脉动阵列的一个重要原则。而这样的设计主要是从“成本”的角度来考虑问题的。由于一个专用系统往往是功能有限的，因此它的成本必须足够低才能克服这一劣势。这也是设计专用处理器的一个基本考虑。

2. Concurrency and communication：这一点主要强调并行性和通信的重要。

3. Balancing computation with I/O：平衡运算和I/O，应该说是脉动阵列最重要的设计目标。

一个处理单元（PE）从存储器（memory）读取数据，进行处理，然后再写回到存储器。这个系统的较大问题是：数据存取的速度往往大大低于数据处理的速度。因此，整个系统的处理能力（MOPS，每秒完成的操作）很大程度受限于访存的能力。这个问题也是多年来计算机体系结构研究的重要课题之一。而脉动架构用了一个很简单的方法：让数据尽量在处理单元中多流动一会儿。

第一个数据首先进入第一个PE，经过处理以后被传递到下一个PE，同时第二个数据进入第一个PE。以此类推，当第一个数据到达最后一个PE，它已经被处理了多次。所以，脉动架构实际上是多次重用了输入数据。因此，它可以在消耗较小的memory带宽的情况下实现较高的运算吞吐率。当然，脉动架构还有其它一些好处，比如模块化的设计容易扩展，简单和规则的数据和控制流程，使用简单并且均匀的单元（cell）

脉动架构有几个特征：

1.由多个同构的PE构成，可以是一维或二维，串行、阵列或树的结构（现在我们看到的更多的是阵列形式）；

2.PE功能相对简单，系统通过实现大量PE并行来提高运算的效率；

3.PE只能向相邻的PE发送数据（在一些二维结构中，也可能有对角线方向的数据通道）。数据采用流水线的方式向“下游”流动，直到流出最后的PE。

3.TPU

matrix单元就是一个典型的脉动阵列。weight由上向下流动，activation数据从左向右流动。在最下方有一些累加单元，主要用于weight矩阵或者activation矩阵超出matrix单元范围的时候保存部分结果。控制单元实际上就是把指令翻译成控制信号，控制weight和activation如何传入脉动阵列以及如何在脉动阵列中进行处理和流动。

几组寄存器分别存储weight，activation和来自上方cell的部分和。weight从上向下传播，可以在weight path register中存储，保持不动或者传输给weight register进行运算。weight register可以把数据发到乘法器进行处理，也可以直接传递给下方的cell；同样activation register也可以把数据发到乘法器进行处理，或者直接传递给右侧的cell。乘法器的输出和Sum in register的数值求和并传递给下方的cell。所有运算和传递都由控制寄存器控制（通过指令决定）