持续购买H100 GPU,Meta构建AI超级集群的经验分享

Meta计划购买35万个H100GPU,用于支持Llama3训练和AGI产品开发。文章详细描述了Meta的AI集群网络、计算、存储和性能优化策略,包括与英伟达的合作以及与BaystoneAI平台的集成,展示了Meta在构建高效AI基础设施上的努力。
摘要由CSDN通过智能技术生成

Meta公司计划在今年年底前向英伟达购买H100GPU芯片,累计囤35万个H100 GPU芯片,使公司的GPU总量达到约60万个,支持下一代大模型Llama 3 训练以及AGI产品的研发。英智未来baystoneai平台提供RTX系列、HGX1系列,满足企业算力所需,baystoneai平台即可预定使用。

Meta 目前有两个AI超级集群,每个集群有24,576 个 NVIDIA Tensor Core H100 GPU,且都能够支持开发更大更复杂的AI模型。Meta分享了建立大集群的细节,在硬件、网络、存储等方面的规划设计,能够让AI工作负载获得更高的吞吐量和可靠性。

网络

Meta的两个集群,一个采用了基于Arista 7800、Wedge400和Minipack2 OCP机架交换机的融合以太网远程直接内存访问(RDMA)(RoCE)网络结构方案。另一个集群则采用NVIDIA Quantum2 InfiniBand架构。

这两种方案都支持400 Gbps的端点互联。通过部署这两种不同的互联技术,能够满足大规模训练任务的适用性和可扩展性,有助于未来建造更大、更高级的集群。

计算

采用Meta自研的开放GPU硬件平台Grand Teton,以多代人工智能系统为基础,将电源、控制、计算和结构接口集成到单个机箱中,以实现更好的整体性能、信号完整性和热性能。它以简化的设计提供快速的可扩展性和灵活性,使其能够快速部署到数据中心队列中并轻松进行维护和扩展。

存储

存储部署通过用户空间中的本地 Linux 文件系统 (FUSE) API 来满足 AI 集群的数据和检查点需求,该 API 由 Meta 的「Tectonic」分布式存储解决方案提供支持。这种解决方案使数千个 GPU 能够以同步方式保存和加载检查点,同时还提供数据加载所需的灵活且高吞吐量的 EB 级存储。

Meta与Hammerspace合作开发了并行网络文件系统(NFS),满足开发者能够使用数千个 GPU 对作业执行交互式调试。这种协作不仅加速了AI模型的迭代速度,还保持了在大规模训练中所需的灵活性和高吞吐量。

在Meta的GenAI集群中,Tectonic和Hammerspace支持的存储部署都基于YV3 Sierra Point服务器平台,并升级了Meta目前在市场上可以采购到的最新高容量E1.S SSD。

除了更高的固态硬盘容量之外,每个机架的服务器都经过定制,以实现每个服务器的吞吐能力、机架数量减少和相关电源效率之间的适当平衡。 利用 OCP 服务器作为像乐高积木一样的基础模块,存储层能够灵活地扩展,以满足该集群以及未来更大的 AI 集群的未来需求,同时具有容错能力,满足对日常基础设施维护操作要求。

性能

下图中显示了当大量 GPU 以预期最高性能的消息大小相互通信时,AllGather 集体性能(以 0-100 范围内的标准化带宽)。

能够看出,小型集群性能(整体通信带宽和利用率)开箱即达到 90%+,但未经优化的大型集群性能利用率非常低,从 10% 到 90% 不等。

为了解决这个问题,Meta通过网络拓扑感知对内部作业调度程序来调度作业,使得最大限度减少了流向网络上层的流量,同时结合英伟达集体通信库NCCL优化了网络路由策略,实现最佳网络利用率,推动Meta大型集群和小型集群一样的高性能。

除了针对内部基础设施的软件变更外,Meta还与编写培训框架和模型的团队密切合作,以适应不断发展的基础设施。例如,英伟达H100 GPU为利用8位浮点(FP8)等新数据类型进行训练提供了可能。充分利用更大的集群需要投资更多的并行化技术,而新的存储解决方案则为高度优化数千个等级的检查点提供了机会,使其能够在数百毫秒内运行。

由于基础大模型的本地训练成本不菲,H100 GPU更是一芯难求,租赁现成的人工智能数据中心设备和生成式AI服务器集群是大多数公司的首选。英智未来baystoneai平台聚合全球智算算力资源,满足企业用户使用RTX系列、HGX1系列等高规服务器,如有需求欢迎点击baystoneai平台预定

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

英智未来

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值