一、 什么是超节点?
超节点,英文名叫SuperPod,是英伟达公司最先提出的概念。
GPU是重要的算力硬件,为AIGC大模型的训推提供了有力的支撑。
随着大模型参数规模的不断增长,对GPU集群的规模需求,也在不断增长。从千卡级到万卡级,再到十万卡级,将来甚至可能更大。
二、如何构建规模越来越大的GPU集群呢?
答案很简单,就是Scale Up和Scale Out。
Scale Up,是向上扩展,也叫纵向扩展,增加单节点的资源数量。Scale Out,是向外扩展,也叫横向扩展,增加节点的数量。
Scale Up:每台服务器里,多塞几块GPU,这就是Scale Up。这时,一台服务器就是一个节点。
Scale Out:通过网络,将多台电脑(节点)连接起来,这就是Scale Out。
Scale Up:对于单台服务器来说,受限于空间、功耗和散热,能塞入的GPU数量是有限的,一般也就8卡、12卡。
塞入这么多块GPU,还要考虑服务器的内部通信能力是否能够支持。如果GPU互连存在瓶颈,那么就达不到Scale Up的预期效果。
计算机内部主要基于PCIe协议,数据传输速率慢,时延高,根本无法满足要求。英伟达为了解决这个问题,专门推