互联:高性能计算的“革命之路”

AIGC和大模型和大模型的爆火,引发了新一波的算力需求海啸。随着模型参数规模的不断扩张,一次GPT的部署动辄需要数万块GPU,各大GPT俨然成了GPU的熔炉。传统的单一架构显然难以胜任。于是,计算方式逐渐发生了从单机到分布,从同构到异构的转变。与此同时,由于训练大模型的数据量极大,服务器不同计算节点之间、异构xPU间,超高带宽、超低延迟和超高可靠性的互联技术已成为高性能计算的迫切需求。

高性能计算互联的演变中,我们注意到了三大趋势。在集群间,互联方式从TCP/IP向RDMA架构转变;片间,由PCIe向多节点无损网络演进;die间,多种芯粒互联技术正加速崛起。同时,以UCIe、CCITA为代表的联盟组织,也在积极的推进Chiplet的标准化协议与生态的建立与完善。

服务器互联,多GPU卡间互联通信怎么一回事? - 知乎 (zhihu.com)
 

集群间互联:从TCP/IP到RDMA

今天,需要几百个上千个GPU连在一起的集群计算已俨然成为AI训练的标配。面对这样规模庞大的数据交互,传统的TCP/IP协议逐渐被RDMA(远程直接内存访问)技术取代。RDMA技术有四种实现:InfiniBand、RoCEv1、RoCEv2和iWARP。业界通用的网络解决方案向InfiniBand和RoCEv2集中。那么,哪种网络更适用于大规模AI的集群互联呢?



InfiniBand:从超算到AI

作为一种网络互联技术,InfiniBand(IB)网络起源于超算,其设计旨在为超算提供低延迟、高吞吐量的数据传输解决方案。随时间推移,IB也成为大规模AI训练集群的一种选择。

然而,使用InfiniBand的代价也极为高昂。在今天,通过InfiniBand部署超大规模AI训练和推理设施远比基于以太网昂贵得多,其网络成本已高达集群成本的20%。且由于AI训练集群与超算不同,随着大模型的增长,其集群将持续以难以置信的速度递增,让AI企业不得不去寻求一种更具性价比的网络形式,即下一代高速以太网。



下一代高速以太网:黑马逆袭

下一代高速以太网,基于以太网RoCE(RDMA over Converged Ethernet)网络协议,可以利用现有的以太网基础设施,构建InfiniBand网络性能接近或等同的RDMA网络。

谈到下一代高速以太网,就不得不提到超以太网联盟(UCE),一个由英特尔、AMD、HPE、Arista、Broadcom、思科、Meta和微软为打破英伟达垄断而共同创始的组织。该组织认为,通过调整以太网的架构,可以让以下一代高速太网的性能像InfiniBand网络一样好,并更具成本与开放性优势,从而让更多的企业加入进来。

综合来说,高性能远距离传输的战场里,今天已仅剩InfiniBand和下一代高速以太网两大阵营。双方势均力敌,在同一个市场里蓬勃发展,各有优劣势和适用场景。其中,IB起源于超算,可以用于AI部署,但由于其超高的成本和较低的扩展性,让下一代高速以太网成为更多企业的新一代选择。企业可以直接利用现有以太网设施部署,在实现与IB同样高性能的同时,具有更低的部署、维护成本。

此外,超远距离线缆的解决方案也在从传统铜线向光学直至量子传输不断进化。据悉,2026年会使用上1.6Tbps光数据互联。



片间互联:从PCIe-多节点无损网络

如前文所说,大模型训练需要极高的算力,尤其是参数百亿、千亿级的大模型,对GPU间的互联带宽要求极高。GPU间、异构xPU间的互联传输技术,逐渐由传统的PCIe 向多节点无损网络演进。

PCIe 作为应用最广泛的计算机中外围设备互连标准,经几十年的发展,已进入5.0时代。PCIe在大多场景下是非常高效和可靠的,但随着超算和AI大模型等数据规模越来越大,并行处理需求急剧增加,原本多个用户共用单个GPU,已演变为多个GPU并行处理一个任务,甚至需要几百上千个GPU连在一起的集群计算。PCIe受限于带宽、延迟、数据传输效率,已成为大规模计算集群的互联瓶颈。正因如此,多节点无损网络协议诞生了。

NVLink 就是这种“多节点无损网络”的代表,由一个强大的软件协议组成,通常通过印在计算机板上的多对导线实现,可以让处理器以极高的速度收发共享内存池中的数据。Nvlink 设计的主要设计目的,就是突破PCIe的屏障,达成GPU-GPU及CPU-GPU的片间高效数据交互。

与传统HPC超算互联架构通过高速PCIe总线和高速网络组建多GPU互联架构不同,基于NVLink,GPU之间互联的链路采用点对点互联的协议,可以绕开PCIe总线,直接连接多个GPU并组建成一个GPU计算阵列,逻辑上形成一个“超级GPU”。第四代 NVLink 连接主机和加速处理器的速度高达每秒 900GB/s。而PCIe 5.0最大支持约128GB/s的双向带宽,相差约7倍。


NVSwitch

NVLink Switch(NVS)则是基于NVLink的互联网络的组成部分,可以实现多个服务器中的GPU直联,NVS不但绕开了服务器内PCIe互联,还绕开了服务器间的以太网通讯,使得跨服务器的GPU通讯路径从原来的6步省略到2步,极大的降低了GPU通讯延迟,从而增强AI大模型计算中数据同步的效率,为AI大模型的计算提供了跨服务器集群解决方案。

以NVIDIA DGX 为例,其系统中的八个 GPU 上的 NVLink 通过 NVSwitch 芯片共享快速、直接的连接,共同组成了一个 NVLink 网络,使服务器中的每一个 GPU 都成为一套系统的一部分。


以NVSwitch为代表的基于无损数据交互的互联网络,并非一颗简单的芯片,而是一套复杂的系统,它需要一套片间互联的协议算法和产品,也面临着诸多挑战:

高速片间接口的复杂性:如何利用高速片间接口,使其既满足芯片直连的需求,又可以完成设备交换功能;
交换算法的扩展性:如何利用已有计算体系实现计算集群内的高速数据传输需求;
网络协议的适配性:如何构建覆盖CPU、GPU、存储领域的网络协议,无缝适配已有硬件设备或上层软件系统。

正因这些挑战,目前仅有包括英伟达在内的少数公司实现了高速多节点片间互联网络,也为他们构建了坚实的竞争壁垒。同时,这也是国内虽有众多高性能芯片公司,却鲜有高速互联芯片企业的重要原因。目前,国际上的Enfabrica和国内的奇异摩尔作为代表企业,致力于打造包括GPU-GPU直连的高性能互联芯粒和解决方案。
 


Die间互联加速崛起

大模型的持续扩张的背景下,为继续提升算力,高性能芯片已从传统的SoC架构全面转向Chiplet异构计算。芯粒数量的不断增加,为了有效发挥算力,也引发了芯粒间的互联挑战。

基于Chiplet架构,创新的Die间互联技术正加速崛起。UCIe、CCITA等组织积极的为Chiplet互联建立统一的接口标准。奇异摩尔作为UCIe联盟的首批成员之一,深度参与了UCIe 1.0标准的完善和UCIe 1.1规范的制定。

D2D接口:随着芯片系统变得越来越复杂,不同功能单元(芯粒)产生的大量数据流需要专用的互联接口来实现数据的传输和调度。这种专用的互联接口通常简称为Die2Die接口,负责在不同芯粒之间传输数据,协调调度数据流,确保整个系统的高效运行。

IO Die:与此同时,专用的互联芯粒技术也在崛起。AMD的高性能芯片架构中就包含了这样一种关键组件,即IO Die。IO Die 作为数据传输和调度核心,常常整合存储单元、Die-to-Die接口和多种高速接口,通过自定义算法实现数据流和信息流的分发调度。IO Die通常适用于2.5D Chiplet芯片架构。

Base Die:当芯片的性能继续增高,平面维度也很难满足Die间互联的需求。于是,互联方式逐渐从2D-3D垂直迭代。行业中开始基于芯粒3D堆叠的方式,进一步提升芯片算力密度。同时,集成die-to-die 3D接口,Cache等模块,以实现更高效的垂直互联,最大程度的减少存储本身带来的延迟和功耗。这种产品类型被称作Base Die,典型产品应用如英特尔Meteor Lake、Ponte Vecchio。

目前,AMD、英特尔为代表的IO Die、Base Die等产品仅用于其自有产品的搭建。缺乏更为通用化的互联芯粒产品已成为Chiplet生态的关键痛点。当然,这也给一些具有前瞻视野的企业提供了难得的机遇,如奇异摩尔。

奇异摩尔基于自身的互联技术优势,较早布局IO Die、Base Die等高性能互联芯粒,并基于Kiwi-Link统一互联架构,提供全链路互联及网络加速芯粒(Chiplet)产品及解决方案,助力高性能计算客户更高效、更低成本搭建超大规模分布式智算平台。

公司核心产品涵盖2.5D IO Die、3D Base Die等高性能互联芯粒、网络加速芯粒及全系列Die2Die IP。基于其旗下产品,奇异摩尔已与多家行业头部企业进行联合开发,致力于为智算中心、自动驾驶、个人计算平台等领域提供涵盖集群间、片间、Die间的全链路高性能互联解决方案。

诚然,算力是一切的源头。但随着算力规模的不断增加,高性能的瓶颈也逐渐从计算转向互联。AIGC、大模型的推动下,互联赛道正展现出史无前例的巨大潜力,有望迎来新一轮的爆发期。

以上内容转自奇异摩尔

一文看懂英伟达A100、A800、H100、H800各个版本有什么区别? - 知乎 (zhihu.com)

Llama-2 LLM各个版本GPU服务器的配置要求是什么? - 知乎 (zhihu.com)

人工智能训练与推理工作站、服务器、集群硬件配置推荐
 

整理了一些深度学习,人工智能方面的资料,可以看看

机器学习、深度学习和强化学习的关系和区别是什么? - 知乎 (zhihu.com)

人工智能 (Artificial Intelligence, AI)主要应用领域和三种形态:弱人工智能强人工智能超级人工智能


深度学习机器学习知识点全面总结 - 知乎 (zhihu.com)

自学机器学习、深度学习、人工智能的网站看这里 - 知乎 (zhihu.com)

多年来一直专注于科学计算服务器,入围政采平台,H100、A100、H800、A800、L40、L40S、RTX6000 AdaRTX A6000单台双路256核心服务器等。
 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值