Llama-3即将发布：Meta公布其庞大的AI算力集群

最新推荐文章于 2024-05-15 12:01:57 发布

灿烂李

最新推荐文章于 2024-05-15 12:01:57 发布

阅读量441

点赞数 4

文章标签： AI作画

本文链接：https://blog.csdn.net/ermu114/article/details/136682724

版权

Meta，这家全球科技巨头，再次以其在人工智能（AI）领域的雄心壮志震惊了世界。3月13日，公司在其官方网站上宣布了两个全新的24K H100 GPU集群，这些集群专为训练其大型模型Llama-3而设计，总计拥有高达49,152个GPU。这一举措标志着Meta在加速通用人工智能（AGI）进程方面的最新进展。Llama-3预计将在4月末或5月中旬上线，受到Sora模型的影响，它很可能是一个多模态模型，并且将继续开源。Meta的首席科学家已经确认了这一消息。据悉，到2024年底，Meta预计将拥有高达600,000个H100 GPU的算力。这一雄心勃勃的计划建立在Meta早期的成功基础之上，该公司在2022年1月首次公布了其AI研究超级集群（RSC），该集群配备了16,000个英伟达A100 GPU，并在开发全球最受欢迎的类ChatGPT模型Llama和Llama 2中发挥了重要作用。 Llama-3的训练设施不仅包括了强大的GPU集群，还采用了RoCEv2网络和基于Tectonic/Hammerspace的NFS/FUSE网络存储。这些技术的应用，加上PyTorch机器学习库的支持，使得Llama-3能够处理前所未有的复杂性和参数规模。 Meta的数据中心网络设计同样令人印象深刻。公司每天需要处理数百万亿次AI模型的请求，因此采用了高效、灵活的网络以确保数据中心的安全和稳定运行。Meta的两个集群分别采用了Arista7800、Wedge400和Minipack2 OCP机架交换机构建的RoCE网络结构，以及NVIDIA Quantum2 InfiniBand结构，两者都能互连400 Gbps端点。硬件平台方面，新增的集群全部使用了Meta内部设计的Grand Teton，这是一个开放性的GPU硬件平台，它将电源、控制、计算和结构接口集成到一个机箱中，以提高整体性能和散热效率。数据存储需求随着大模型功能的增加而迅速增长。Meta的新集群通过自创的用户空间Linux文件系统API来满足人工智能集群的数据和检查点需求。这一API由Meta针对闪存媒体优化的Tectonic分布式存储解决方案提供支持，使得数千个GPU能够同步保存和加载检查点，同时提供高吞吐量的外字节级存储。此外，Meta与Hammerspace的合作进一步强化了其存储能力，使得工程师能够使用数千个GPU对作业进行交互式调试，因为环境中的所有节点都能立即访问代码更改。随着Llama-3的即将发布，Meta再次证明了其在AI领域的领导地位。这家公司不仅在技术上不断创新，还在推动开源文化，致力于构建一个能够造福全人类的AGI。随着Llama-3的上线，我们期待看到一个更加智能、多模态的AI模型，它将如何改变我们的生活和工作方式。

灿烂李

关注

4
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Llama-3即将发布：Meta公布其庞大的AI算力集群

这一雄心勃勃的计划建立在Meta早期的成功基础之上，该公司在2022年1月首次公布了其AI研究超级集群（RSC），该集群配备了16,000个英伟达A100 GPU，并在开发全球最受欢迎的类ChatGPT模型Llama和Llama 2中发挥了重要作用。硬件平台方面，新增的集群全部使用了Meta内部设计的Grand Teton，这是一个开放性的GPU硬件平台，它将电源、控制、计算和结构接口集成到一个机箱中，以提高整体性能和散热效率。随着Llama-3的即将发布，Meta再次证明了其在AI领域的领导地位。
复制链接

扫一扫