ISSCC论文详解-2024 ISSCC 34.4 台积电3nm[1]

最新推荐文章于 2024-06-26 10:55:25 发布

存内计算开发者社区

最新推荐文章于 2024-06-26 10:55:25 发布

阅读量2.5k

点赞数 21

分类专栏：存内计算技术文章标签： arm开发硬件工程材料工程硬件架构基带工程智能硬件空间计算

本文链接：https://blog.csdn.net/m0_58966968/article/details/136804587

版权

存内计算技术专栏收录该内容

25 篇文章

订阅专栏

本文探讨了台积电3nm工艺下实现的DCIM芯片，特别是A17Pro芯片，展示了在AI应用中的高性能和低功耗。文章详细分析了存内计算技术的发展，以及如何通过并行MAC、flying-BL方案和流水线操作模式提升效率。此外，文章还讨论了芯片工艺的挑战和可能的解决方案，如芯粒技术、FinFET改进以及3D封装技术。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

随着芯片制造工艺的不断发展，3nm芯片工艺逐渐进入人们的视野。早在2022年6月，三星就宣布已经实现3nm工艺的量产，这一工作采用了环栅(GAA)晶体管架构的3纳米(nm)工艺，突破了FinFET的性能限制，通过降低电源电压水平提高功率效率，同时还通过增加驱动电流能力提高性能。然而三星初代3nm工艺产品良率较低，并没有真正进入市场。随后在2023年，台积电也提出了3nm芯片制造工艺，采用FinFlex工艺，这是台积电的一项“秘方”功能，允许芯片设计人员精确定制他们的构建模块，以实现更高的性能、更高的密度和更低的功耗[2]。2023年9月13日，苹果公司发布了iPhone 15Pro系列产品，其中所搭载的A17 Pro芯片就是全球首款3nm芯片，使用了台积电3nm工艺，显示了其技术的先进性和市场的认可。2024年ISSCC期刊上的论文“34.4 A 3nm, 32.5TOPS/W, 55.0TOPS/mm2 and 3.78Mb/mm2 Fully-Digital Compute-in-Memory Macro Supporting INT12 × INT12 with a Parallel-MAC Architecture and Foundry 6T-SRAM Bit Cell”报告了一款采用台积电3nm工艺制作的数字存算一体芯片，接下来我们将针对这篇文章进行详解。

文章基本信息

作者团队

本篇文章由台积电在台湾新竹、加州圣何塞、加拿大渥太华和日本横滨的四家公司团队合作撰写，第一作者为Hidehiro Fujiwara，全部作者姓名为Hidehiro Fujiwara；Haruki Mori；Wei-Chang Zhao；Kinshuk Khare；Cheng-En Lee； Xiaochen Peng；Vineet Joshi；Chao-Kai Chuang；Shu-Huan Hsu；Takeshi Hashizume；Toshiaki Naganuma；Chen-Hung Tien；Yao-Yi Liu；Yen-Chien Lai；Chia-Fu Lee；Tan-Li Chou；Kerem Akarvardar；Saman Adham；Yih Wang；Yu-Der Chih；Yen-Huei Chen；Hung-Jen Liao；Tsung-Yung Jonathan Chang。

期刊

本篇文章为2024年ISSCC期刊的第34章（存内计算专题）中的第4篇，ISSCC是“IEEE International Solid-State Circuits Conference”的缩写，是世界学术界和企业界公认的集成电路设计领域最高级别会议，被认为是集成电路设计领域的“世界奥林匹克大会”。

文章内容概述

关键词

DCIM（数字存内计算），6T SRAM，parallel MAC（并行乘累加计算），flying-BL方案，流水线操作模式。

出发点及内容概述

随着AI大模型的快速发展，存内计算技术被广泛探索，以最大限度地降低与AI边缘设备的数据移动和MAC操作相关的功耗。与基于模拟的CIM相比，DCIM包括小型分布式SRAM组合和定制的MAC单元，可通过先进技术实现大规模并行计算，而不会造成精度损失，并具有更好的功耗性能面积扩展。然而，由于位串行输入和少量行导致操作吞吐量较低，平衡单位面积操作效率和位密度是现有DCIM面临的挑战之一。

为解决上述问题，本文提出了一种基于6T SRAM的3nm DCIM宏，采用了并行MAC、flying-BL方案、流水线操作模式等创新点，最终芯片测试数据为能效比32.5TOPS/W、面效比55.0TOPS/mm2、存储密度3.78 Mb/mm2。

文章亮点解析

（1）3nm存内计算芯片

从台积电近5年在ISSCC上发表的有关存内计算芯片的论文来看，基本上保持着1-2年为一个步调——每1-2年，存内计算芯片工艺制程提升一代，从2020年开始：

2020年，加利福尼亚台积电在ISSCC上发表文章《A 351TOPS/W and 372.4GOPS Compute-in-Memory SRAM Macro in 7nm FinFET CMOS for Machine-Learning Applications》[3]，介绍了在7nm工艺制程下，台积电数字存算一体芯片的最新成果；
2022年，新竹台积电在ISSCC上发表文章《A 5-nm 254-TOPS/W 221-TOPS/mm2 Fully-Digital Computingin-Memory Macro Supporting Wide-Range Dynamic-VoltageFrequency Scaling and Simultaneous MAC and Write Operations》[4]，介绍了在5nm工艺制程下，台积电数字存算一体芯片的最新成果；
2023年，新竹台积电在ISSCC上发表文章《A 4nm 6163-TOPS/W/b 4790-TOPS/mm2/b SRAM Based Digital-Computing-in-Memory Macro Supporting Bit-Width Flexibility and Simultaneous MAC and Weight Update》[5]，介绍了在4nm工艺制程下，台积电数字存算一体芯片的最新成果；
2024年，新竹台积电在ISSCC上发表文章《A 3nm, 32.5TOPS/W, 55.0TOPS/mm2 and 3.78Mb/mm2 Fully-Digital Compute-in-Memory Macro Supporting INT12 × INT12 with a Parallel-MAC Architecture and Foundry 6T-SRAM Bit Cell》[1]，介绍了在3nm工艺制程下，台积电数字存算一体芯片的最新成果。

除此之外，三星也在2022年，比台积电更早地在ISSCC上发表了一篇在4nm工艺制程下的神经网络加速器（NPU），其乘累加（MAC）模块被设计在NPU core中，与存算核结构、功能类似，原文为《A Multi-Mode 8K-MAC HW-Utilization-Aware Neural Processing Unit with a Unified Multi-Precision Datapath in 4nm Flagship Mobile SoC》[6]。

综上，我们把这五篇文献提出的存算芯片/NPU性能进行汇总，可以从表1中看出，制程工艺的进步对于性能的提升影响是巨大的，3nm工艺下的存内计算芯片可以在阵列大小、核面积几乎等同的情况下大幅提升能效比和面效比等性能指标。

表1 性能对比表

	ISSCC 2024 34.4	ISSCC 2023 7.4	ISSCC 2022 15.1	ISSCC 2022 11.6	ISSCC 2020 15.3
工艺制程	3nm	4nm	4nm	5nm	7nm
阵列大小（Kb）	60.75	54	-	64	4
核面积（mm2）	0.0157	0.0172	-	0.0133	-
VDD	0.36-1.1V	0.32-1.1V	0.55-1.0V	0.5-0.9V	0.8-1.0V
输入/输出通道数	72/4	144/16	-	64/64	-
输入位数	INT12	INT8/12/16	INT4/8/16、FP16	INT4	INT4
权重位数	INT12	INT8/12	INT4/8/16、FP16	INT4	INT4
能效（TOPS/W）	*484（4b4b）**	319（4b*4b）	11.59（8b*8b）	254 （4b*4b）	262.3（4b*4b）
面效（TOPS/mm2）	*495.3（4b4b）**	299.7（4b*4b）	6.90（4b*4b）	221 （4b*4b）	-

（2）融合查找表的数字存算一体电路

本文提出的芯片使用查找表（LUT）电路替代数字存算电路中的乘法器和加法树第一层的加法器。这项工作由台积电团队与VLSI2022[7]中初次提出。如下图所示为乘法器及加法树第一层的示例，其中权重为4bit，输入为1bit。

图1 原始电路与基于查找表的乘法+第一层加法电路示意图[7]

在传统数字存算一体电路中，卷积计算的权重存储在存储器中，需要计算时，由存储器取出权重数据，在乘法器中计算权重与输入数据的乘积，再经过加法树求和，完成一次权重与输入的乘累加运算。在这种运算模式中，相较于模拟存算使用模拟值进行累加运算，数字存算电路中的加法树电路消耗巨大的面积，以图中所示电路为例，权重4bit、输入1bit，加法树的第一级就需要采用3个全加器和1个半加器才能完成运算，若电路为64并行度，则需要64个这样的电路，传统意义上1个全加器需要28个晶体管，1个半加器需要20个晶体管，这在电路面积层面的消耗是巨大的，而后续层电路中的加法器个数会在此基础上增加；并且根据[6]中计算，乘法器和加法树的第一层在最差情况下会消耗50%的功耗。

查找表电路，字面意义上即不直接使用输入数据进行计算，而是将输入数据匹配到指定的地址，访问存储器中存放的数据，来完成计算。台积电的这报告的查找表电路采用了同样的思路进行设计。对于1bit输入和4bit权重乘法结果进行加法求和的结果共下图四种所示情况。

图2 查找表计算示意[7]

台积电的研究人员利用该规律，利用选择器设计电路。根据输入数据的组合，直接输出结果，4种情况中仅有一种需要使用加法进行运算，而由于该加法部分的输入数据不会改变，此部分加法的结果不是动态变化的，可以减少峰值动态功耗。根据文章提供的数据，这种设计能减少原设计中21%的功耗，在输入为1bit的情况下存算核面积估计为原来的107%，输入为4bit的情况下存算核面积估计为原来的84%。

在ISSCC2024中，清华大学报告的一种28nm eDRAM基于查找表的存算核设计[8]也采用了类似的思想。相比于台积电使用加法器维持静态工作状态，并使用输入数据作为选择器输入的做法，这篇报告种提出的设计使用eDRAM存储结果，将输入数据编码为地址访问eDRAM存储器，可能的输出提前运算好，存放在存储器中，如图3所示。根据文章数据，这种设计相对于传统数字存内计算节省了55%的面积。

(a) 采用eDRAM查找表的存算一体芯片核心示意图

(b) eDRAM查找表地址示意

图3 eDRAM数字存算一体芯片中的查找表电路[8]

并行MAC

想要理解文章中所采用的并行MAC操作，需要从如图4所示架构入手。下面简单解释该架构，“Data storage”为6T SRAM存算阵列，负责数据和权重的写入和读出。权重存储被划分为18段（18 segments），用于18个输入通道（18 In Ch）。每段由18行（18 rows）和192列（12b × 4 In Ch × 4 Out Ch）组成。

图4 CIM架构和双轨功率分配示意图[1]

而并行MAC操作在图4的红框部分“MAC with LUT”进行，指的是同时进行12b × 12b（权重和数据均为12bit）的计算。每次MAC操作需要从存储器接收3456位权重（12b ×72 In Ch×4 Out Ch）和864位数据（12b × 72 In Ch），这个72 In Ch实际上是“Data storage”的“18 In Ch × 4 In Ch”，权重从4个Out Ch输出，每次输出四组，而数据从1个Out Ch输出，每次输出一组。简单的说，就是“MAC with LUT”每次都会接收四组权重和一组数据，然后每一组权重和同一组数据同时进行MAC计算，也就是并行MAC操作，如图5（a）所示。相对来说，串行MAC操作如图5（b）所示，指的是同时接收1组权重和一组数据，等这一组权重和数据计算完成之后，才会接收下一组对应的权重和数据。

图 5 并行MAC与串行MAC计算示意图：（a）并行MAC；（b）串行MAC

除了MAC并行操作，“MAC with LUT”模块也进行了查找表操作，即四组权重和一组数据同时进行的计算，实际上是根据查找表比对四次，最终得到乘累加结果，省去了大部分计算步骤。

四．总结与启发

（1）在当前先进工艺受限的情况下，还能通过何种方式提升性能？

过去几十年来，半导体行业一直按照摩尔定律的规律发展，凭借着芯片制造工艺的迭代，使得每18个月芯片性能提升一倍。但是当工艺演进到5nm，3nm节点，提升晶体管密度越来越难，同时由于集成度过高，功耗密度越来越大，供电和散热也面临着巨大的挑战。当工艺制程小于10nm以后，量子效应、电流泄漏等问题便不可被忽略，有可能导致电路功能错误、信号模糊畸变，因此我们也需要一些其他的途径，绕过工艺制程的进步来提升存算芯片的性能。

（1.1）芯粒（chiplet）

Chiplet（芯粒）技术是SoC集成发展到当今时代，摩尔定律逐渐放缓情况下，持续提高集成度和芯片算力的重要途径。工业界近期已经有多个基于Chiplet的产品面市，Intel甚至发布了集成47颗芯片的Ponte Vecchio系列，Chiplet技术已经是芯片厂商比较依赖的技术手段了。

通过多个Chiplets级联获得性能的线性增长，典型代表为Apple M1 Ultra（如图6）、Intel Sapphire rapids系列。

图6 Apple M1 Ultra

（1.2）FinFET

FinFET（Fin Field-Effect Transistor）称为鳍式场效应晶体管，是一种新的晶体管，称为CMOS，这项技术是把芯片内部平面的结构变成了3D，把栅极闸门设计成了像鱼鳍般的3D结构，把晶体的厚度变薄，这样额设计能够很好地接通和断开电路两侧的电流，大大降低了芯片漏电率高的问题，而晶体管空间利用率也得到了大大的增加。

以上提及的制造工艺都将在5nm之后失效，而目前学术界提出的方案是GAA MCFET（多桥通道 FET），这个工艺简单来说就是将芯片晶体管内部的硅通道全都用栅极材料包围，不仅能增加晶体管的密度，降低功耗，并提升芯片的性能。

图7 新型MOSFET结构

（1.3）3D封装等先进封装技术

3D封装（TSV）是一种将多个芯片垂直堆叠在一起，通过TSV等方式实现芯片与芯片之间的连接的封装方式。随着市场对高性能计算和存储器等产品的需求不断增加，3D封装的应用也将越来越广泛。未来，3D封装将继续朝着更高速、更可靠、更小型化的方向发展。

图8 2.5D/3D封装示意图

（2）查找表电路

虽然ISSCC2024中台积电和北京大学的工作都验证了融合查找表电路的思路在数字存算芯片加法树电路中的可行性。但是，使用这种电路的前提条件不可忽视，只有输入数据是1bit，才能将加法树第一层两个数相加的结果拆分为0、W1、W2、W1+W2四种情况。否则，如果输入数据比特数更高，则乘法器中会需要使用累加器，反而增大面积。因此，对于高位宽的情况，考虑将其拆分为1bit的输入数据，计算后采用移位累加器进行累加，是更适合查找表电路的方案，不足之处是需要更多的计算周期。

（3）数字存算的基本结构

并行MAC操作可以降低计算延迟，这种设计和数字存算的架构设计较为相关，文章中提到的SRAM存算阵列和写入读出的方案设计都支持着并行MAC操作。后续的数字存算研究也可以从存算阵列和写入读出方式入手，设计新型存储和计算方案，使得可以同时更多次MAC操作。然而需要指出的是，同时进行MAC操作也意味着需要有更多的计算模块同时工作，功耗和面积上面临着挑战。综上，我们可以以数字存算的基本结构为基础，通过设计新型存算阵列和写入读出方案，使其实现并行MAC操作，降低计算延迟，同时注意并行MAC操作带来的面积、功耗问题，寻找延迟、面积、功耗的最佳平衡点。

参考文献：

H. Fujiwara, H. Mori, W. Zhao, et al. “A 3nm, 32.5TOPS/W, 55.0TOPS/mm2 and 3.78Mb/mm2 Fully-Digital Compute-in-Memory Macro Supporting INT12 × INT12 with a Parallel-MAC Architecture and Foundry 6T-SRAM Bit Cell,” in IEEE International Solid-State Circuits Conference (ISSCC), pp. 27-29, 2024.
全球首款3nm芯片，正式发布|晶体管|台积电|低功耗_网易订阅 (163.com).
Dong et al, “15.3 A 351TOPS/W and 372.4GOPS Compute-in-Memory SRAM Macro in 7nm FinFET CMOS for Machine-Learning Applications,”ISSCC,Feb.2020.
Lee, Chiu et al,”8:30 AM 11.1 A 1ynm 1.25V 8Gb, 16Gb/s/Pin GDDR6-Based Accelerator-in-Memory Supporting 1TFLOPS MAC Operation and Various Activation Functions for Deep-Learning Applications,”ISSCC,Feb.2022.
Park et al,”A Multi-Mode 8K-MAC HW-Utilization-Aware Neural Processing Unit with a Unified Multi-Precision Datapath in 4nm Flagship Mobile SoC,”ISSCC,Feb.2022.
Mori et al,”A 4nm 6163-TOPS/W/b 4790-TOPS/Mm2 SRAM Based Digital-Computing-in-Memory Macro Supporting Bit-Width Flexibility and Simultaneous MAC and Weight Update,” ISSCC,Feb.2023.
Lee, Chia-Fu, et al. "A 12nm 121-TOPS/W 41.6-TOPS/mm2 all digital full precision SRAM-based compute-in-memory with configurable bit-width for AI edge applications." 2022 IEEE Symposium on VLSI Technology and Circuits (VLSI Technology and Circuits). IEEE, 2022.
Chia-Fu Lee, Cheng-Han Lu, Cheng-En Lee, et al. “A 28nm 2.4Mb/mm2 6.9 - 16.3TOPS/mm2 eDRAM-LUT-Based Digital-Computing-in-Memory Macro with In-Memory Encoding and Refreshing,” in IEEE International Solid-State Circuits Conference (ISSCC), pp. 27-29, 2024.