以前我其实不太推荐玩4090或者5090的卡来做多卡的机器,因为我总觉得又没nvlink,又没HBM,就不适合玩多卡
但是我的认知是不对的
A16z有钱吧
人家也玩4090 8卡
让我们看看他们怎么玩的,顺便给大家个思路,自己搭该怎么搭
首先准备零件啥的
机箱,交换机,线缆,光模块啥的,准备了
在我们深入构建过程之前,让我们讨论一下为什么这么玩服值得考虑:
简洁性 : 我们使用的零件和我们的改造对于具有中级技术技能的人来说是可以接受的。
PCIe 5.0面向未来: 该服务器提供八个PCIe 5.0 x16插槽,为高性能GPU提供最大的带宽和面向未来的能力。虽然RTX 4090的速度受限于PCIe 4.0,但这种设置可以无缝升级到下一代PCIe 5.0 GPU,算是提前布局了
用于八个3插槽GPU(例如RTX 4090或RTX 5090)的PCIe板配置 : 在这种设置中,PCIe板与主板是分开的,这是一种独特的设计,使得两个独立的PCIe 5.0 PCB板可以单独安装。这种配置可以容纳所有八个GPU(底部四个,顶部四个),而无需额外的复杂且昂贵的PCIe重定时器或重驱动器。通常,当PCIe信号通过更长的走线、电缆或连接器时,需要这些组件来维持信号完整性。通过最小化信号路径长度和复杂性,这种设计确保了全速连接,同时具有更高的简单性和可靠性。
优于传统的服务器布局 : 许多提供八个PCIe 5.0 x16通道的服务器替代方案将它们直接集成到主板中。然而,由于RTX 4090的3插槽宽度,这种布局在物理上不可能安装八个RTX 4090。我们的配置通过将PCIe板与主板分离来解决这个限制,从而在不妥协的情况下完全支持八个三插槽GPU,并使用定制的铝制框架来固定四个外部GPU。
直接PCIe连接 : PCIe PCB卡使用服务器附带的原始通信电缆连接到主板,无需PCIe延长线、重定时器或交换机。这是一个至关重要的优势,因为延长线可能会扰乱PCIe总线的阻抗,从而可能导致系统降级到较低的PCIe版本(例如3.0甚至1.0),从而导致显著的性能损失。
定制框架解决方案 : 我们将使用一个定制框架,该框架由GoBilda机器人组件中常用的元素构建,以安全地固定顶部的四个外部GPU。这使得八个3插槽GPU能够安装在这个服务器设置中,而无需PCIe重驱动器或PCIe电缆延长线,并使用原始的PCIe5.0卡和电缆。
简单的电源分配 : 使用一个ATX 24针和一个6针主板电源延长线、一个ATX 24针Y型分离器和一个6针Y型分离器将电源分配给两个PCIe板。
服务器的spec:
- Server model: ASUS ESC8000A-E12P
- GPUs: 8x NVIDIA RTX 4090
- CPU: 2x AMD EPYC 9254 Processor (24-core, 2.90GHz, 128MB Cache)
- RAM: 24x 16GB PC5-38400 4800MHz DDR5 ECC RDIMM (384GB total)
- Storage: 1.92TB Micron 7450 PRO Series M.2 PCIe 4.0 x4 NVMe SSD (110mm)
- Operating system: Ubuntu Linux 22.04 LTS Server Edition (64-bit)
- Networking: 2 x 10GbE LAN ports (RJ45, X710-AT2), one utilized at 10Gb
- Additional PCIe 5.0 card: ASUS 90SC0M60-M0XBN0
开干!
线装内存:
24个16GDDR插上
插硬盘
安装华硕90SC0M60-M0XBN0 PCIe 5.0附加卡。
将四对线缆(标有数字)从服务器中已安装的原始PCIe卡(底部PCIe卡)上重新连接。我们交替了顺序:第一组留在底部PCIe卡上,第二组连接到顶部卡上,第三组留在底部PCIe卡上,依此类推
创建“Y”型分线电缆延长线,为安装在服务器顶部的外部90SC0M60-M0XBN0 PCIe 5.0扩展卡供电。
确保“Y”型分线电缆延长线具有适当的线规,以安全地处理外部PCIe卡和GPU的功率需求。
装下面的gpu
上面的也装上
2台8卡机器装完了
调网络里线,装OS