GPU集群中的超节点

会探索的小学生

于 2025-04-30 19:15:13 发布

阅读量1.1k

点赞数 26

文章标签：网络 GPU GPU集群

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42795092/article/details/147638542

版权

一、什么是超节点？

超节点，英文名叫SuperPod，是英伟达公司最先提出的概念。

GPU是重要的算力硬件，为AIGC大模型的训推提供了有力的支撑。

随着大模型参数规模的不断增长，对GPU集群的规模需求，也在不断增长。从千卡级到万卡级，再到十万卡级，将来甚至可能更大。

二、如何构建规模越来越大的GPU集群呢？

答案很简单，就是Scale Up和Scale Out。

Scale Up，是向上扩展，也叫纵向扩展，增加单节点的资源数量。Scale Out，是向外扩展，也叫横向扩展，增加节点的数量。

Scale Up：每台服务器里，多塞几块GPU，这就是Scale Up。这时，一台服务器就是一个节点。

Scale Out：通过网络，将多台电脑（节点）连接起来，这就是Scale Out。

Scale Up：对于单台服务器来说，受限于空间、功耗和散热，能塞入的GPU数量是有限的，一般也就8卡、12卡。

塞入这么多块GPU，还要考虑服务器的内部通信能力是否能够支持。如果GPU互连存在瓶颈，那么就达不到Scale Up的预期效果。

计算机内部主要基于PCIe协议，数据传输速率慢，时延高，根本无法满足要求。英伟达为了解决这个问题，专门推

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。