美欧亚三洲开发者联手，全球首个组团训练的大模型来了，全流程开源

程序员的店小二

于 2024-12-03 15:18:45 发布

阅读量966

点赞数 7

文章标签：开源

原文链接：https://mp.weixin.qq.com/s/AwA6zQ8VEZZzEZryKZkJow

版权

11 月 22 日，Prime Intellect 宣布通过去中心化方式训练完成了一个 10B 模型。30 号，他们开源了一切，包括基础模型、检查点、后训练模型、数据、PRIME 训练框架和技术报告。据了解，这应该是有史以来首个以去中心化形式训练得到的 10B 大模型。

技术报告：https://github.com/PrimeIntellect-ai/prime/blob/main/INTELLECT_1_Technical_Report.pdf
Hugging Face 页面：https://huggingface.co/PrimeIntellect/INTELLECT-1-Instruct
GitHub 地址：https://github.com/PrimeIntellect-ai/prime
体验链接：chat.primeintellect.ai

Prime Intellect 表示，相比此前的研究，INTELLECT-1 实现了 10 倍的规模提升。这一突破证明，大规模模型训练已不再是大公司的专利，通过去中心化的、社区驱动的方式同样可以实现。

他们的下一步计划是将模型进一步扩展到前沿规模，最终目标是实现开源 AGI。这一点在其在线 Demo 的模型选项中已有暗示 —— 其中包含开放推理模型甚至 AGI 和 ASI 的潜在选项。看起来这确实是一个雄心勃勃的团队。

模型发布后，虽也有质疑声音，但 AI 社区总体上还是给出了非常积极的肯定。

用几个经典问题简单尝试了其在线 Demo 版本的模型。

首先是经典的草莓问题，INTELLECT-1 一开始答对了，但继续提问就又变成了常见的错误答案。

该模型也具备还不错的文本理解能力，但总体而言和 Llama 和 Qwen 等前沿开源模型还有所差距。

下面我们看看它的汉语能力。从多次测试的结果来看，这个模型的汉语能力并不好，并且幻觉现象似乎也挺严重的，比如下图中，即使该模型暂时并不具备读取链接的能力，也会根据上下文强行作答。

不管怎样，INTELLECT-1 都是 AI 历史上一次颇具开创性的实验。下面我们就来看看这个系统是如何炼成的。

大规模去中心化训练

Prime Intellect 的这场去中心化训练的规模其实相当大，涉及到 3 个大洲的 5 个国家，同时运行了 112 台 H100 GPU。

全球 30 位贡献者的基本信息

该团队表示：「我们在各大洲实现了 83% 的总体计算利用率。当仅在分布于整个美国的节点上进行训练时，实现了 96% 的计算利用率。与中心化训练方法相比，开销极小。」

这样的结果表明 INTELLECT-1 在存在严重的带宽限制和节点波动的情况下，依然能维持训练收敛性和高计算利用率，这昭示了一种新的可能性：能够以去中心化、社区驱动的方式训练出前沿的基础模型！

一万亿 token 的训练过程，这里给出了训练过程中损失、困惑度、训练速度等信息

训练细节与数据集

INTELLECT-1 基于 Llama-3 架构，它包含：

42 层，隐藏维度为 4,096
32 个注意力头
序列长度为 8,192
词表大小为 128,256

模型在经过精心筛选的 1 万亿 token 数据集上训练，数据构成如下：

数据集 Huggingface 链接：https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu

55% FineWeb-Edu
20% Stack v2（Stack Overflow 等技术问答数据）
10% FineWeb（精选网页数据）
10% DCLM-baseline（基准通用语料）
5% OpenWebMath（数学数据）

模型训练持续了 42 天，采用了以下技术：

采用 WSD 动态调整学习速度，让模型学习更高效
精细调教的学习参数：内层学习率设为 7.5e-5
引入特殊的损失函数（max-z-loss）来确保训练过程的稳定性
使用 Nesterov 动量优化算法，帮助模型更快更好地学习
支持训练机器的灵活接入和退出，最多可同时使用 14 台机器协同训练

从训练过程的监控图表可以看出，PRIME 系统表现出色：即使参与训练的机器数量经常变化（从最少 4 台逐渐增加到最多 14 台），整个训练过程依然保持稳定，充分证明了系统的可靠性。

训练动态图展示了整个训练过程中模型困惑度和学习率的变化，包括预热阶段、稳定阶段和退火阶段。

Prime：一个去中心化训练框架

该团队使用的训练框架名为 Prime，这基于他们开发的 OpenDiLoCo。而 OpenDiLoCo 又基于 DeepMind 之前开发的 Distributed Low-Communication（DiLoCo）方法。

项目地址：https://github.com/PrimeIntellect-ai/OpenDiLoCo

在此之前，Prime Intellect 已经在 1B 参数规模上实验了去中心化 AI 模型训练。该团队表示：「这让我们到达了我们的 masterplan 的第三步：合作训练用于语言、智能体和科学的开放式基础模型。」

Prime Intellect 的 masterplan

相比于之前开源的 OpenDiLoCo，Prime 有两大关键提升。

一是在算法方面，他们在 OpenDiLoCo 上执行了许多消融研究，发现还能进一步降低通信要求。值得注意的是，他们将伪梯度的 int8 量化与每 500 步进行一次的外部优化器同步相结合，从而将带宽要求降低了多达 2000 倍。这些结果不仅在较小规模下是有效的，该团队也将它们扩展到了更大的模型。

在具体的大规模扩展方面，我们知道，去中心化训练既是工程挑战，也是研究挑战。当今最大的 AI 实验室也还没有彻底解决在多个分布式数据中心上的容错训练。该团队表示，Prime 这种全新的去中心化训练框架支持容错训练，支持计算资源的动态开启/关闭，还能优化全球分布式 GPU 网络中的通信和路由。

Prime 中用于容错训练的 ElasticDeviceMesh 的拓扑结构

该团队在博客中写道：「该框架构成了我们开源技术堆栈的基础，其目标是支持我们自己的算法以及 OpenDiLoCo 之外的其他去中心化训练算法。通过在此基础架构上构建，我们的目标是突破全球分布式 AI 训练的极限。」

具体来说，Prime 框架包含以下关键特性：

用于容错训练的 ElasticDeviceMesh
异步分布式检查点
实时检查点恢复
自定义 Int8 All-Reduce 内核
最大化带宽利用率
PyTorch FSDP2 / DTensor ZeRO-3 实现
CPU 卸载

计算效率

虽然训练散作满天星，但计算效率仍保持「聚是一团火」的高水准：在美国境内集群部署时，计算资源利用率高达 96%（中位数同步延迟仅 103s）；跨越大西洋的部署场景下依然维持在 85.6% 的优异水平（中位数同步延迟 382s）；即便是在全球分布式节点配置下，计算利用率也能稳定保持在 83%（中位数同步延迟 469s）。