打造Meta的GenAI基础设施,正站在一场技术革命的风口浪尖

Meta公司宣布投资其AI未来,推出配备24kGPU集群的基础设施,专为训练Llama3设计,展示了在硬件、网络、存储等方面的突破。这些集群推动开放创新,预示着到2024年的更大规模扩张。Meta致力于AGI研发,通过开源技术和合作伙伴实现透明与责任的AI开发。
摘要由CSDN通过智能技术生成

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

Meta公司近日宣布了其AI未来的重大投资,公布了两个拥有24k GPU集群的细节。这标志着该公司在硬件、网络、存储、设计、性能和软件方面的突破,以提高各种AI工作负载的吞吐量和可靠性。这些集群专为训练Llama 3而设计,体现了Meta对开放计算和开源的坚定承诺。通过采用Grand Teton、OpenRack和PyTorch等开放技术,Meta持续推动整个行业的开放创新。

这次公告仅是Meta雄心勃勃的基础设施路线图中的一步。到2024年底,Meta计划继续扩大其基础设施建设,将包括350,000 NVIDIA H100 GPUs,旨在提供相当于近600,000 H100s的计算能力。

在开发AI的道路上,领先意味着在硬件基础设施上进行大量投资。硬件基础设施在AI未来中扮演了重要角色。今天,Meta分享了其两个24,576-GPU数据中心规模集群的细节。这些集群支持当前和下一代AI模型,包括Llama 3及其公开发布的LLM的继任者Llama 2,以及GenAI和其他领域的AI研究与开发。

Meta的长期愿景是建立开放且负责任地构建的人工通用智能(AGI),以便每个人都能从中受益。在迈向AGI的过程中,Meta也在扩大其集群的规模,以支持这一雄心。这些进步不仅创造了新产品,还为其应用家族和新的AI中心计算设备提供了新的AI功能。

Meta在构建AI基础设施方面拥有悠久的历史。2022年,Meta首次分享了其AI研究超级计算机(RSC)的细节,该计算机配备了16,000 NVIDIA A100 GPUs,加速了开放且负责任的AI研究,帮助Meta构建了第一代高级AI模型。RSC在开发Llama和Llama 2以及从计算机视觉、自然语言处理、语音识别到图像生成甚至编码的应用中的高级AI模型中发挥了并将继续发挥重要作用。

通过从RSC中获得的成功经验和教训,Meta的新AI集群着重于构建端到端AI系统,强调研究员和开发者的体验和生产力。这些集群的高性能网络结构、关键存储决策以及每个集群中的24,576 NVIDIA Tensor Core H100 GPUs的效率,使这两个版本的集群能够支持比RSC中可能支持的更大更复杂的模型,为GenAI产品开发和AI研究铺平了道路。

在网络方面,Meta每天需要处理数百万亿次AI模型执行。为了在大规模提供这些服务,需要一个高度先进和灵活的基础设施。Meta自主设计了大量硬件、软件和网络结构,以优化AI研究者的端到端体验,同时确保数据中心的高效运作。

在计算方面,这些集群使用了Meta自己设计并贡献给开放计算项目(OCP)的Grand Teton开源GPU硬件平台。Grand Teton基于多代AI系统,将功率、控制、计算和织物接口集成到单一机箱中,以获得更好的整体性能、信号完整性和热性能。它提供了快速的可扩展性和灵活性,可以快速部署到数据中心舰队中,并容易维护和扩展。结合其他自主创新,如Open Rack电源和机架架构,Grand Teton使Meta能够以针对当前和未来应用定制的方式构建新集群。

在存储方面,随着GenAI训练作业变得更加多模态,消耗大量的图像、视频和文本数据,对数据存储的需求迅速增长。Meta的存储部署通过一个自主开发的Linux文件系统用户空间(FUSE)API以及为Flash媒体优化的Meta“Tectonic”分布式存储解决方案来解决AI集群的数据和检查点需求。此外,Meta还与Hammerspace合作开发并实施了一个并行网络文件系统(NFS)部署,以满足这个AI集群的开发者体验要求。

性能方面,Meta在构建大规模AI集群时的一个原则是同时最大化性能和易用性,而不牺牲其中一个。随着我们推动AI系统的极限,最好的测试我们扩展设计能力的方式是实际构建系统,优化并测试它。在这个设计旅程中,我们比较了小集群和大集群的性能,以找出瓶颈所在。

Meta继续致力于AI软件和硬件的开放创新。公司相信,开源硬件和软件将始终是帮助行业解决大规模问题的有价值工具。

今天,Meta继续支持作为OCP创始成员的开放硬件创新,并使像Grand Teton和Open Rack这样的设计可用于OCP社区。Meta也继续是PyTorch的最大和主要贡献者,PyTorch是推动大部分行业的AI软件框架。

Meta也继续致力于AI研究社区的开放创新。公司已经启动了开放创新AI研究社区,这是一个与学术研究人员合作的伙伴计划,旨在加深我们对如何负责任地开发和分享AI技术的理解,特别是关注LLMs。

对于Meta来说,对AI的开放方法并不新鲜。公司还启动了AI联盟,这是一个由AI行业领先组织组成的团体,专注于在一个开放社区内加速负责任的AI创新。Meta的AI努力建立在开放科学和跨领域合作的哲学之上。一个开放的生态系统为AI开发带来了透明度、审查和信任,并导致了每个人都能从中受益的创新,这些创新以安全和责任为最重要的考虑。

这两种AI训练集群设计是Meta未来AI更大路线图的一部分。到2024年底,Meta计划继续增长其基础设施建设,将包括350,000 NVIDIA H100s,作为一个将提供相当于近600,000 H100s计算能力的组合的一部分。

展望未来,Meta认识到昨天或今天有效的方法可能不足以满足明天的需求。这就是为什么公司不断评估和改进基础设施的每一个方面,从物理和虚拟层到软件层及以外。公司的目标是创建灵活且可靠的系统,以支持快速发展的新模型和研究。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值