Fire-Flyer AI-HPC:基于 PCIe 的深度学习架构优化实践
背景介绍
随着深度学习(DL)和大型语言模型(LLM)的快速发展,计算资源的需求呈指数级增长。传统的高性能计算(HPC)架构,如 NVIDIA 的 DGX-A100,虽然性能强大,但成本高昂且能耗巨大。为了应对这一挑战,Fire-Flyer AI-HPC 架构应运而生。它通过软硬件协同设计,在 PCIe A100 GPU 的基础上,实现了接近 DGX-A100 的性能,但成本仅为后者的 60%,能耗减少了 40%
PCIe 架构优化
(一)硬件设计:PCIe A100 GPU 集群
Fire-Flyer 2 架构采用了 8 个 PCIe A100 GPU 和 1 个 Mellanox CX6 200Gbps InfiniBand (IB) 网卡,直接连接到 CPU,避免使用 PCIe 交换机,从而减少了潜在的性能瓶颈。这种设计在成本和性能之间取得了平衡,同时满足了大多数深度学习模型的训练需求。
配置项 | Fire-Flyer 架构 | NVIDIA DGX-A100 架构 |
---|---|---|
GPU | 8 个 PCIe A100 | 8 个 SXM A100 |
网卡 | 1 个 Mellano |