如何制造出比英伟达更好的GPU？

目前，NVIDIA在GPU市场可以说是一家独大，难逢敌手。那么有没有厂商或技术能够挑战英伟达，制造出更好的GPU呢？

近日，就有一家厂商试图制造出更好的GPU来挑战英伟达。

我们具体来看下。

▉ 数据的移动和内存处理正面临挑战

近些年，很多人都在关注各种计算引擎的浮点数和整数处理架构，但却很少有人关注内存层次结构和互联层次结构。这是因为提升计算相对容易，而数据的移动和内存处理却变得越来越难。

用一些简单的数字来说明这个问题：在过去的二十年里，CPU和GPU的计算能力增长了90000倍，但DRAM内存的带宽只增长了30倍，互联带宽也只增长了30倍。近年来虽然在某些方面有了进步，但计算和内存之间的平衡仍然远远偏离了理想状态。这意味着人们在很多AI和HPC工作负载上过度投资于内存不足的计算引擎。

正是基于这种考虑，Eliyan公司考虑了在网络上的物理层（PHY）架构创新，这家公司创始人兼首席执行官Ramin Farjadrad在MemCon 2024会议上展示了NuLink PHY及其用例是如何随着时间的推移而演变的，以及它们如何用于构建比当前基于硅中介层的封装技术更好、更便宜、更强大的计算引擎。

PHY是一种物理网络传输设备，它将交换机芯片、网络接口或计算引擎上或内部的任何其他类型的接口连接到物理介质（铜线、光纤、无线电信号），这些介质再将它们彼此连接或连接到网络。

硅中介层是一种特殊的电路桥接器，用于将HBM堆叠的DRAM内存连接到计算引擎，如GPU和定制ASIC，这些引擎通常用于HPC和AI领域中对带宽敏感的应用。有时，HBM也用于常规CPU，这些CPU也需要具有高带宽的内存。

为了更好的了解Eliyan PHY架构的创新，接下来，我们先来谈谈2.5D封装。

▉ 细谈2.5D封装

随着摩尔定律中晶体管密度的增加速度放缓，以及随着每个后续工艺技术的推出，晶体管成本上升，现在人们都已经意识到现代芯片蚀刻工艺的掩模限制。在使用普通的极紫外（EUV）水浸式光刻技术时，你能在硅片上蚀刻晶体管的最大尺寸是26毫米x 33毫米。

但是，许多人可能并没有意识到，允许在有机基板（每个计算引擎插槽及其附属的HBM存储器下方的类似主板的基板）上相互连接的芯片之间的硅中介层也有尺寸限制。硅中介层的大小取决于用于创建中间板的技术。中介层是使用与芯片相同的光刻工艺制造的，但与芯片858 mm²的掩模限制不同，中介层今天可以使用某些技术达到2500 mm²，使用其他技术则接近1900mm²；根据Farjadrad的说法，Eliyan有计划将其推高到3300 mm²。有机基板插槽没有这样的面积限制。在谈论芯片的2.5D封装时，这一点非常重要。

Farjadrad在会上详细介绍了Eliyan的 NuLink PHY优势以及2.5D封装方法的馈电、速度和局限性。

以下是台湾积体电路制造股份有限公司（TSMC）如何使用其晶圆上硅片上的芯片（CoWoS）工艺实现2.5D的，该工艺用于创建Nvidia和AMD GPU以及它们的HBM堆栈等：

从技术上看，上图展示了TSMC的CoWoS-S中介层技术，该技术用于将GPU、CPU和其他加速器与HBM内存连接起来。前代CoWoS-R的硅中介层受限于大约两个掩模单元——这正好是Nvidia上周刚刚发布的“Blackwell”B100和B200 GPU的大小，但那个GPU封装使用的是更现代、更不占地方的CoWoS-L技术，该技术制造起来更复杂，就像其他方法中使用的嵌入式桥接。CoWoS-L在大小上有一个三掩模的限制。

一种桥接技术被称为带有嵌入式桥接的晶圆级扇出技术，该技术由芯片封装商Amkor Technology倡导，ASE Holdings公司有一个名为FOCoS-B的变种。以下是这种封装方法的馈电和速度信息：

通过这种2.5D封装，你可以制造出一个大约有三个掩模限制大小的封装。高迹线密度意味着你可以在低功耗下获得高芯片间带宽，但连接范围有限，布线能力也有限，而且它还没有真正进行大规模生产。

英特尔将硅桥直接放入包含芯片组的有机基板中的方法与Eliyan使用NuLink的方法相似：

然而，EMIB一直受到生产周期长、产量低、连接范围和路由能力有限，以及供应链有限的困扰。供应链仅限于一家公司，这家公司目前在先进半导体领域的声誉并不好。公平地说，英特尔正在重回正轨，但它还没有到达那里。

这就引出了Eliyan通过NuLink提出的改进型2D MCM工艺：

Farjadrad说，一年前，NuLink PHY的数据速率是MCM封装中使用的传统PHY的10倍左右，NuLink PHY之间的走线长度可以达到2 cm到3 cm，比CoWos和其他2.5D封装选项支持的0.1 mm走线长度增加了20倍到30倍。走线上的额外距离，以及NuLink PHY在这些走线上具有双向信号的事实，使计算引擎设计的世界变得完全不同。

Farjadrad还提到：“在目前的架构下，当你在内存和ASIC之间运行数据包时，数据包数据并不是同时双向的。“你可以从内存中读取或写入。如果你有一个端口可以同时发送或接收一个，那么你可以从同一个beach获得两倍的带宽，这就是NuLink所做的。因此，您不会浪费您的ASIC beach的一半，这是非常宝贵的。

当然，NuLink需要自己的特殊协议来维护内存一致性，确保读和写之间没有冲突。当制作PHY时，需要为特定的应用程序制作一个相关的协议。这是Eliyan最大的区别之一。拥有最好的PHY是一回事，但将其与AI应用的正确专业知识相结合是另一个重要因素，Eliyan知道如何做到这一点。

当NuLink于2022年11月首次推出时，它还没有这个名字，Eliyan也没有提出用物理学来创建通用存储接口(UMI)的方法。NuLink只是实现某种东西的一种方式，它可以使用UCI-Express芯片互连协议，也可以支持Farjadrad和他的团队几年前创建的原始束线(BoW)芯片互连所支持的任何协议，并将其作为提议的标准捐赠给开放计算项目。以下是Eliyan如何将NuLink与各种内存和芯片互连协议进行对比：

我很喜欢这张表格，能够清晰对比各种互联协议的性能情况：

Intel MDFIO是Multi-Die Fabric I/O的缩写，用于将“Sapphire Rapids”Xeon SP处理器中的四个计算芯片相互连接；EMIB用于将这些小芯片链接到具有HBM的Sapphire Rapids的Max系列CPU变体的HBM内存堆栈。OpenHBI基于JEDEC HBM3电气互连，也是一个OCP标准。UCI-Express，我们在这里写过，是一种时髦的带有CXL一致性覆盖的PCI-Express，它被设计成小芯片的模对模互连。英伟达(Nvidia)的NVLink目前用于将Blackwell GPU的小芯片粘合在一起，但它没有出现在这张表中，英特尔(Intel)的XeLink也没有出现在“Ponte Vecchio”Max系列GPU上，用于将其GPU小芯片粘合在一起。与UCI-Express不同，NuLink PHY是双向的，这意味着您可以拥有与UCI-Express一样多或更多的电线，但在走线上的带宽是UCI-Express的两倍或更多。

正如你所看到的，有一个昂贵的包装选择，使用凸点与40微米到50微米的凸点间距，而模具到模具的距离只有大约2毫米。物理层的带宽密度可以非常高——每毫米边缘长度上的芯片可以达到Tb/秒——并且功率效率根据方法的不同而变化，整个延迟也在4纳秒以下。

表的右边是可以与标准有机基板封装和使用130微米凸起工作的互连物理，因此是更便宜的选择。其中包括来自Cadence的Ultralink PHY，来自AMD的Infinity Fabric PHY，来自Alphawave Semi的OIF Extra Short Reach (XSR) PHY，以及NuLink的一个版本，即使不使用低间距凸点，仍能实现相当高的信号传输。

看看表格右侧的芯片到芯片的连接距离。使用2厘米相比于2毫米和ASIC与HBM堆栈或相邻芯片之间的0.1毫米间距，你可以做更多的事情。这些更长的连接打开了计算和内存复合体的几何结构，并且它们还消除了ASIC与HBM之间的热串扰效应。堆叠内存对热度非常敏感，随着GPU变得更热，需要冷却HBM以使其正常工作。如果你能将HBM与ASIC保持更远的距离，你可以使ASIC运行得更快，Farjadrad估计大约快20%，并且更热，因为内存不足以被增加的ASIC热量直接影响。

此外，通过移除GPU等设备中的硅中介层或等效物，并转向有机基板，使用更厚的凸点并隔开组件，你可以将带有十几个HBM堆栈的双ASIC设备的制造成本从大约12000美元降低到约6800美元，而芯片加封装的产量从50%提高到87%。

我们再来对比UCI-Express、BoW和UMI的另外两张图表，然后我们可以稍微扮演一下系统架构师的角色。

你可以看到，Eliyan一直在推动其PHY的双向能力，并且现在有能力进行同时双向传输，它称之为UMI-SBD。

这是一张展示这四种选项的带宽和ASIC前沿的图表：

那么，现在被称为UMI的NuLink PHY，比UCI-Express更小、更快，并且可以同时进行发送和接收。

▉ 那么你能用它做什么呢？

首先，你可以构建更大的计算引擎：

24个或更多的HBM堆栈，以及介于10到12个掩模之间的计算引擎封装，你觉得如何？而且，由于它使用的是标准有机基板，因此制造时间缩短到原来的四分之一到五分之一。

上世纪90年代初，IBM开始从1989年左右的巅峰跌落时，有这样一句话：“你可以找到更好的，但你不能付更多的钱。”

当然，Nvidia不是IBM，也不是Intel。至少现在还不是。轻松赚钱对公司及其路线图产生了细微的影响。

以下是Eliyan对HBM4在未来可能如何发展的看法：

HBM4内存的JEDEC PHY非常大，切换到UCI-Express将使其面积减半。使用NuLink UMI PHY几乎可以再将其减半，从而为所选XPU上的逻辑留出更多空间。或者，如果你想要弃用中介层，制造一个更大得多的设备，并容忍一个13 mm2的UMI PHY，你也可以制造一个更便宜的设备，同时仍然可以驱动每个HBM4堆栈达到2 TB/sec的速度。

现在，事情变得有趣了。

早在2022年11月，当Eliyan提出其想法时，它正在将带有中介层连接到HBM内存的GPU与一台没有中介层、将ASICs加倍（就像Blackwell所做的那样）并配备令人惊叹的24个HBM等级的机器进行比较。像这样：

左边展示了Nvidia A100和H100 GPU及其HBM内存的架构。中间是Nvidia的图表，展示了随着更多HBM内存容量和更多HBM内存带宽可供AI应用程序使用时，性能如何提升。正如我们所知，具有141 GB HBM3E内存和4.8 TB/sec带宽的H200的工作量是配备相同GH100 GPU但仅有80 GB HBM3内存和3.35 TB/sec带宽的H100的1.6倍到1.9倍。

想象一下，一个拥有576 GB HBM3E内存和19 TB/sec带宽的巨兽！请记住：内存并不是功耗的一个很大部分，GPU才是。迄今为止所见到的少量证据无疑表明，Nvidia、AMD和Intel投放市场的GPU在HBM内存容量和带宽方面都受到限制，这种情况已经持续了很长时间，因为制造这种堆叠内存的难度很大。这些公司制造GPU，而不是内存，他们通过尽可能少地提供HBM内存来对抗强大的计算能力，从而最大化收入和利润。他们总是展示比上一代更多的内存，但GPU的计算能力总是比内存容量和带宽增长得更快。像Eliyan提出的这样的设计可以将计算和内存重新平衡——同时也可以使这些设备变得更便宜。

或许对于GPU制造商来说，这有些过于强硬，所以在UMI发布时，该公司稍微退让了一些，展示了如何使用中介层、有机基板以及NuLink PHYs的混合来制造更大、更平衡的Blackwell GPU复合体。

下面左侧是如何创建一个Blackwell-Blackwell超级芯片，该芯片具有一个以1.8 TB/sec速度运行的NVLink端口，用于将两个小芯片Blackwell GPU连接在一起：

采用NuLink UMI方法，如上述图表右侧所示，两个Blackwell GPU之间通过六个端口实现了大约12 TB/sec的带宽——这略高于Nvidia在B100和B200中使用NVLink端口将两个Blackwell芯片连接在一起所提供的10 TB/sec带宽。如果Nvidia有B200超级芯片设计的话，那么在Eliyan的超级芯片设计中，带宽将是Nvidia设计的6倍。如果Nvidia坚持使用其CoWoS制造工艺，Eliyan可以在中介层上放置相同的八组HBM3E内存，然后可以在每个Blackwell设备上再放置另外八组HBM3E内存，总共32个内存库，这将提供768 GB的容量和25 TB/sec的带宽。

但是，这还不是全部。这种UMI方法适用于任何XPU和任何类型的内存，你可以在这种大规模有机基板上进行各种疯狂的操作，而无需使用中介层：