文献阅读04:Evolution of MPP SoC architecture techniques-CSDN博客

相应地，多核处理器逐渐出现。例如，有几种双核处理器，如 IBM 的 Power6 (2006) [2]，英特尔的 Conroe(2006)、AMD 的 Opteron (2004) [3] 和 Sun Microsystems 的 UltraSPARC IV (2004)。四核处理器于2007年问世。多核处理器的芯片架构正从串行计算向并行计算发展。

SoC的概念早在1987年就已经提出，进一步研究如何将计算机系统的设计转化为芯片设计，用SoC计算机代替由处理器、存储器、接口电路和传感器芯片组成的现代计算机。

1.2 SoC两种方法

第一种方法是：基于PCB系统，由现代单功能芯片组成的多处理器SoC，其中异构多处理器、存储器、接口电路和传感器通过片上总线连接。
第二种方法是：大规模并行处理SoC（MPP SoC）。它顺应并行计算机技术和深亚微米技术的发展要求，由大量同构处理器元件（PE）组成，代表了高性能应用的并行性和高度融合发展规律，以网络为互联“总线”。因为它是通过PE阵列实现的，所以也被称为阵列处理器（AP），推动了处理器架构从多核处理器到 MPP SoC 的 AP。

1.3 “红墙”问题

第一个问题是互连延迟比门延迟越来越重要。在过去的技术中，使用导线连接逻辑门。反之，未来线是通过逻辑门连接的。片上互连线不仅有延迟，还有功耗。因此，设计必须调用 PE 与 PE、PE 与内存之间的本地通信技术。
第二个问题是特征尺寸太小，芯片缺陷是不可避免的。我们应该使用自主重构技术来进行缺陷容错、故障容错和容错，以避免设计中的错误。
第三个问题是漏电流和功耗变得非常重要。当特征尺寸小于 65 nm 时，静态功率将超过总功率的 50%。设计中将使用自主电源管理技术。

为了通过技术解决这些“红墙”问题，研究人员求助于开发 MPP SoC 架构。现在单个芯片可以集成超过一亿个晶体管，芯片架构需要使用更规则的功能设计架构。 MPP SoC架构是必然趋势，形成了基于指令流、数据流和配置流计算范式的三种计算范式的架构。芯片架构的进一步发展是自计算和自然计算范式。

2 MPP SoC architecture of instruction stream computing paradigm

2.1架构分类

根据Flynn的架构分类，指令流计算范式的并行计算架构主要有两种。

一种是数据级并行的 SIMD。它的控制单元向每个PE发送相同的指令流，对不同的数据进行相同的操作。

另一种是指令级并行的MIMD。在这种架构中，每个PE都有自己的控制单元，成为一个处理器，对不同的数据进行不同的操作。数据的编程级别并行算法适用于 SIMD 架构实现。

2.2图形处理的MPP系统芯片

早在 1980 年代，针对航空航天遥感图像处理的特点，开发了许多 SIMD PE 阵列架构。

（1）1976 年，英国 ICL 公司研制出具有 64×64 处理单元阵列的 DAP（分布式阵列处理器）计算机。

（2）1980 年伦敦大学学院研制出一种由 96×96 PE 阵列实现的蜂窝逻辑图像处理器（CLIP4）。

（3）1983 年，美国Goodyear Aerospace公司开发了一种具有 128×128 PE 阵列的 MPP 计算机，并用它来分析从航天飞机传回的面相图像。

（4）1987年，美国Thinking Machine生产CM-2，采用65536 PE阵列，主要用途是AI和图像处理。

以上这些图像处理SIMD PE阵列是应用目标明确的MPP SoC，充分体现了芯片架构随着芯片密度和计算范式的增加而变化的多样性特征。

2.3GPU与MPP SoC

图形加速器是GPU的始祖，是一种可以加速台式电脑3D图形显示的专用处理器。随着越来越多的工作由 GPU 执行，图形加速器从一种特殊的芯片演变为今天的 MPP SoC。随着 DirectX 10 规范的出现，GPU 在 2006 年走到了通用计算的大门。GPU 的计算任务可以分为五类：顶点着色、像素着色、几何着色、物理计算和通用计算。 GPU是由通用PE组成的PE阵列，可以完成所有五项任务，不像前几代产品为每种计算任务设计独立的计算单元和流水线。

（1）nVIDIA 公司用于加速图形处理计算的 Geforce 8800 GPU 采用 SIMD PE 阵列架构。Geforce 8800 系列是第一款实现 DirectX 10 规范的 GPU。

（2）ATI 的 HD2000 系列 GPU[10] 是兼容 DirectX 10 规范的统一结构 GPU，是一种二维空间 MPP SoC。它有 320 个流 PE。每 80 个 PE 组成一个 SIMD PE 阵列。这个 SIMD PE 阵列有四组。每个 SIMD PE 阵列包括 16 个 SIMD 处理单元。每个 SIMD 处理元素包括 5 个 PE。

2.4 WSI扩大芯片密度

晶圆级集成（WSI）是一种通过扩大芯片面积来增加芯片密度的新方法。例如，欧洲四个国家的 ELSA 计划的主要目的是开发一种集成大量 PE 阵列的处理器，使用 2-D WSI。晶圆被分成20个正方形区域；每个方格被分成四个子场。子场由标准开关和缓冲开关连接。每个子字段由 7×12 个一位 PE 组成。6×12 PE 应用 PE，12 PE 备用。每个晶圆可以集成6720个一位PE（960个备用PE）。

2.5非数据并行算法

对于非数据并行算法，当今的高性能计算机使用单核或多核高性能处理器。处理器在共享路由器下通过复杂的互连线技术连接。

（1）在指令流计算范式的MISD架构中，指令流水线是一种有效的实现方式，但流水线的深度，即空间并行性，是有限的。

（2）MIMD架构中虽然有一些1-D、2-D或3-D并行实现技术，但由于算法固有的低并行性限制，只有VLIW和SMT等低指令级空间并行实现技术。

在这些指令流计算范式的架构中，编程是比较复杂的，因为任务需要软件来划分多个由不同处理器处理的子任务。

自动并行识别技术在实践中并不成功。在现代并行计算机系统中，非数据并行算法的MPP计算任务划分依赖于操作系统的任务调度程序的管理。国家科学基金会（NSF）认为这是高性能计算的过渡期，并启动了一系列研究项目来鼓励“革命性体系结构概念”的研究。

随着支持高性能计算的MPP SoC架构的变化，MPP SoC的PE比高性能处理器内核更简单，PE之间的互连是一种使用分布式路由器的简单对接技术。与嵌入式计算机一样，未来的高性能计算机也必须针对应用领域进行优化。

2.6高性能计算的MPP SoC架构

（1）IBM 宣布了其高性能计算机开发计划，代号为“蓝色基因”，旨在通过测量各种不同的力来研究人类蛋白质分子的折叠方式。各种蛋白质分子聚集在一起。根据 2007 年 TOP500 高性能计算机排名，IBM Blue Gene/L 排名第一，其 Linpack SPEC 的峰值速度为 280.6 teraflops。 IBM 预计 Blue Gene/P 将在 2007 年底成立，拥有 1000000 个 PE，峰值速度为 1 petaflops。它有 64 个 6 英寸高的机柜。每个机柜有 8 个 PCB 板。每个 PCB 板都有 64 个 MPP SoC。每个芯片包括 32 个简单的处理单元，速度为 1000000000/s。

（2）英特尔提出了一个名为 Tera-Scale 的计划。其 MPP SoC 于 2007 年采用 65 nm 技术实现，集成了 1 亿个晶体管，并使用了 80 个比现代处理器更简单的 PE。每个 PE 都有自己的路由器。每个路由器有 5 条通信路径，80 GB/s 带宽和 1.25 ns 延迟。四个通信路径用于建立二维网状网络并实现PE之间的数据通信。最后一个用于连接overlap SRAM，实现PE和内存之间的数据通信。它是一个网状互连的 MPP SoC，如图 (a) 所示。 PE和SRAM互连的3-D混合集成工艺是一种减少线长的方法，具有很大的潜力。这些芯片的最终性能如表 1 所示。每种 MPP SoC 的性能均超过 1 teraflops。

3 Array chip architecture of other computing paradigm

针对指令流计算范式的MISD/MIMD架构上实现的非数据并行算法缺乏空间并行性，随着应用需求和芯片密度的增加，提高计算机性能的方法已经从图 2(a) 所示的指令流计算范式架构演变为现代控制流架构中的数据流计算范式架构。一些根据该算法设计的ASIC随着计算空间并行性的增加已经出现（图2（b））。例如，Systolic Array[18]仍然是功能模块的二维阵列架构。通过数据流计算范式的ASIC电路，可以在每个执行周期完成一次算法的计算。

实际上，这些电路是基于数据流计算范式的非数据并行算法的算法处理器。它们具有并行计算的有效性和特定于应用程序的缺点。为解决ASIC的复用能力问题，出现了静态可重构FPGA。它是一种二维门阵列架构，仍然没有编程的灵活性。

研究人员提出了配置流计算范式的架构来克服这一缺点（图 2（c））。 Dynamic reconfigurable Re-Configuration device (RC device)（动态可重新配置的重新配置设备）出现，它是通过配置动态重新配置的。

【指令流计算模式：实现的非数据并行算法缺乏空间并行性————>数据流计算模式：ASIC不能复用，特定于应用程序————>配置流计算模式：解决ASIC不能复用的问题，RC device出现，通过配置动态重新配置】

4 An array processor architecture for unified change

架构方式	应用程序设计的变更	映射方式
指令型	编程变更	时间映射架构
数据型	全定制ASIC或半定制FPGA芯片的芯片设计变更	空间映射架构
配置型	RC设备结构的stream-ware的变更	空间映射架构
	不同计算范式的架构上的不同计算是通过不同的应用设计（变更）方式来实现的。因此，出现了应用设计（更改）和电路设计（实施）的多样性。	MIMD、MISD非数据并行计算—>提高并行计算能力->指令型时间映射变为空间/时空映射—>SIMD PE 数据流和配置流计算范式的应用设计（变更）抽象层次从芯片设计或逻辑设计层次提升到编程层次
应用设计的门槛降低，所有计算范式的应用设计（变更）都通过统一的编程（变更）来完成，从而消除了应用设计（变更）方式和芯片设计（实现）的多样性，而将实现指令级并行计算编程的简单性、有效性和多功能性。

5 Summary

5.1阵列处理器的演进

统一变化的阵列处理器架构也是在冯诺依曼指令流计算范式的架构上发展起来的。

阵列处理器的演进。①程序；②处理器；③ASIC/RC器件；④阵列处理器。

处理器是从指令集（架构）到集成电路的转变；目标程序是从算法（应用程序）到指令集的转换； ASIC电路或RC器件电路是由集成电路直接实现算法，PE阵列是这三种变换并行的发展。

因为统一变化的阵列处理器可以支持ASIC和FPGA电路统一到“指令/语句阵列”编程的应用设计，RC器件可以看成是几个ASIC电路的组合，应用设计也将统一到“指令/句阵”的编程上。因此，ASIC、FPGA和RC器件电路的芯片设计将转化为PE阵列的设计。

5.2阵列处理器维度

阵列处理器	维度
处理单元数据接口	三维（b）	六条路径（a）
显示输出和传感器输入	二维（c）
简单的应用	一维（d）
类似于艺术家使用透视和阴影在 2-D 图片上产生立体视觉，计算机专家使用立体视觉算法在 2-D 显示器上形成 3-D 立体视觉。

5.3 3-D芯片

由于技术的限制，单片机的I/O管脚数量不能随着芯片集成度的提高而扩展。为了支持阵列处理器架构的4D时空探索，需要一种3D实现技术来支持多样化阵列芯片的3D集成（阵列处理器、阵列存储器、阵列传感器等）。由于IC技术难以实现3-D芯片，到目前为止，只有松下工业有限公司开发了采用IC技术的3-D图像处理芯片；但是，通过混合 IC 技术实现 3D 集成更容易。英特尔公司 Tera-Scale 研究项目中的 MPP SoC 采用了 3-D 混合 IC 技术。在图 3(b)中，“1”是 80 个处理单元的 PE；“2”是 2MB SRAM 缓冲区。两种芯片制造在同一个晶圆上，不再是图3(b)所示的平行放置，而是采用3-D芯片级混合IC技术，通过立方体覆盖结构连接PE和SRAM芯片。与采用PIM（内存中处理器）的方法相比，所谓的内存墙问题也通过3-D混合IC技术得到解决。