GPU集群中的超节点

一、 什么是超节点?

超节点,英文名叫SuperPod,是英伟达公司最先提出的概念。

GPU是重要的算力硬件,为AIGC大模型的训推提供了有力的支撑。

随着大模型参数规模的不断增长,对GPU集群的规模需求,也在不断增长。从千卡级到万卡级,再到十万卡级,将来甚至可能更大。

二、如何构建规模越来越大的GPU集群呢?

答案很简单,就是Scale Up和Scale Out。

Scale Up,是向上扩展,也叫纵向扩展,增加单节点的资源数量。Scale Out,是向外扩展,也叫横向扩展,增加节点的数量。

Scale Up:每台服务器里,多塞几块GPU,这就是Scale Up。这时,一台服务器就是一个节点。

Scale Out:通过网络,将多台电脑(节点)连接起来,这就是Scale Out。

Scale Up:对于单台服务器来说,受限于空间、功耗和散热,能塞入的GPU数量是有限的,一般也就8卡、12卡。

塞入这么多块GPU,还要考虑服务器的内部通信能力是否能够支持。如果GPU互连存在瓶颈,那么就达不到Scale Up的预期效果。

计算机内部主要基于PCIe协议,数据传输速率慢,时延高,根本无法满足要求。英伟达为了解决这个问题,专门推

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值