OLMo2全开源LLM，含数据、代码和训练过程

最新推荐文章于 2025-03-17 09:41:21 发布

AI Agent开发

最新推荐文章于 2025-03-17 09:41:21 发布

阅读量878

点赞数 22

文章标签：人工智能大模型语言模型 LLM ai 学习

本文链接：https://blog.csdn.net/m0_56255097/article/details/144107636

版权

自从2024年2月首次发布OLMo以来，我们见证了开放语言模型生态系统的快速增长，以及开放模型与专有模型之间性能差距的缩小。OLMo-0424相对于我们在2月份的首次发布，在下游性能上有了显著提升。我们还对完全开放模型开发的参与度增加感到兴奋，特别是包括LLM360的Amber、M-A-P的Neo模型和DCLM的基线模型。9月，我们发布了OLMoE，这是一个专家混合模型，也是其完全开放的同行中第一个位于性能和大小的帕累托前沿的模型。

因为完全开放的科学不仅仅需要开放的权重，我们很高兴分享新一轮的OLMo更新——包括权重、数据、代码、配方、中间检查点和指令调整模型——和更开放的语言建模社区！

地址：https://github.com/allenai/OLMo

一、OLMo 2发布

OLMo 2正式发布，一个新系列的7B和13B模型，训练了高达5T的token。这些模型与同等大小的完全开放模型相当或更好，并且在英语学术基准测试中与开放权重模型如Llama 3.1可以一较高下。

我们通过提升我们的核心模型的各典型环节，深入探讨了那些大家藏着掖着的模型训练技巧，包括：

训练稳定性。长时间的模型训练可能会受到训练不稳定性和损失峰值的困扰，这与最终模型性能降低有关。我们即将发布的技术报告将讨论我们用来提高长时间预训练运行稳定性的技术，这对于确保最终训练模型的性能至关重要。
分阶段训练：预训练后期的干预。预训练是缓慢且昂贵的，这促使我们寻找解决方案来克服在长时间训练过程中发现的知识或能力缺陷。我们将讨论学习率退火和数据课程作为干预措施，可以在预训练过程的后期应用，以“修补”在训练早期未能成功获得的模型能力。
最先进的后训练配方。我们将最先进的后训练方法从Tülu 3应用到OLMo 2模型上，创建了OLMo 2-Instruct模型。在我们的Ai2游乐场中尝试OLMo 2-Instruct-13B，这是我们最能干的OLMo 2模型。
可操作的评估框架。对于OLMo 2，我们建立了明确的性能目标和任务扩展法则，并设计了一个评估框架（开放语言建模评估系统，OLMES），帮助指导开发阶段的改进。OLMES由20个评估基准组成，用于评估模型的核心能力，如知识回忆和常识、一般和数学推理，转变为最大化小规模实验中评估模型改进的信噪比。

我们在下面总结了OLMo 2的关键点；技术报告将很快提供，再稍微等等。

我们使用OLMES中的一系列任务评测OLMo 2与其他开放模型。我们将基准测试分为dev，我们在OLMo开发过程中跟踪这些基准测试（例如，ARC Challenge、HellaSwag、WinoGrande、MMLU、DROP和Natural Questions）和没见过的测试集，我们直到模型开发完成后才计算指标（例如，AGIEval、MMLU Pro、GSM8k、TriviaQA）。

我们将OLMo 2与一组基线模型进行比较，我们将这些模型分为三个家族：

开放权重模型：仅发布最终检查点的模型，关于它们的训练数据和配方的信息非常有限或未知；
部分开放模型：发布了权重和大部分数据（或复制它们所需的详细信息）的模型；
完全开放模型：发布了权重、训练数据、代码和完整评估的模型，因此可以完全检查和复制。

首先，我们发现OLMo 2 7B和13B是迄今为止最好的完全开放模型，经常超越同等大小的开放权重模型。我们不仅观察到与我们早期的OLMo 0424模型相比，所有任务的性能都有显著提升，而且值得注意的是，OLMo 2 7B超越了LLama-3.1 8B，OLMo 2 13B超越了Qwen 2.5 7B，尽管它的总训练FLOPs更低。OLMo 2模型位于训练FLOPs与模型平均性能的帕累托前沿（见上图）。

总的来说，我们发现在dev指标上观察到的增益在很大程度上转化为我们未见的评估套件。当然，我们不能保证我们在开发OLMo 2时认为未见的任务不是我们比较的其他模型的dev集的一部分。尽管如此，我们认为模型开发者应该保持一部分评估任务未见应该是标准做法；此外，我们鼓励其他开放权重模型开发者明确声明哪些任务在模型开发期间用作参考。

二、预训练OLMo 2

OLMo 2的架构与第一个OLMo相似，但有几个关键变化，以提高训练稳定性，例如从非参数层标准化切换到RMSNorm（张和森里奇2019年）、按照刘等人（2022年）的顺序重新排列层标准化，并采用Dehghani等人（2023年）的QK-Norm，以及用旋转位置嵌入替换绝对位置嵌入，如苏等人（2023年）所述。我们还采用了Wortsman等人（2023年）和变色龙论文中看到的Z-loss正则化，以及改进的初始化，更好地保持了跨层的激活和梯度的规模。更多细节将在我们即将发布技术报告中讨论。

OLMo 2分为两个阶段进行预训练，使用与Blakeney等人（2024年）类似的课程方法。

在第一阶段，占总预训练预算的90%以上，我们使用OLMo-Mix-1124，这是一个来自DCLM、Dolma、Starcoder和Proof Pile II的大约3.9万亿个token的集合。OLMo 2 7B在这个数据集上训练了大约一个周期，而OLMo 2 13B训练了1.2个周期，高达5T个token。

在第二阶段，我们策划了（a）经过过滤的高质量网络数据和（b）一系列特定领域的高质量数据（学术内容、问答论坛、指令数据和数学练习册，包括合成和人工生成的）。这个集合作为Dolmino-Mix-1124提供。总共，它由843亿个token组成，我们采样创建了3个混合，分别为50亿、100亿和300亿个token，每个混合中有50%的数据来自（a）和（b）。

对于OLMo 2 7B，我们从第一阶段的最终检查点训练了3份50B混合的不同数据顺序的副本。与之前的OLMo版本一致，我们从第一阶段结束后的线性退火学习率为零。然后，我们使用称为模型汤（Wortsman等人，2022年）的技术将它们合并，以获得最终的基础检查点。对于OLMo 2 13B，我们重复这个过程，但创建了使用100Btoken的三个模型，以及使用300Btoken的另一个模型。它们被合并以创建最终的13B基础检查点。

三、制作OLMo 2 Instruct

上周，我们发布了Tülu 3，我们的一系列最先进的、完全开放的后训练模型，以及数据、代码、配方等。这些配方结合了多种类型的训练技术，包括在模型提示完成上的监督微调（SFT）、偏好调整与DPO，以及可验证奖励的强化学习（RLVR）。我们将最佳配方应用于OLMo 2模型，并在Tülu 3评估套件中评估它们，该套件在OLMES中实现，包括评估模型的指令遵循、知识回忆和数学及一般推理能力的基准。

我们的OLMo 2的Instruct变体与最佳开放权重模型竞争，OLMo 2 13B Instruct超越了Qwen 2.5 14B Instruct、Tülu 3 8B和Llama 3.1 8B Instruct模型。

我们发现，Tülu 3配方可以大部分应用于OLMo 2模型，而无需昂贵的定制。（Tülu 3是前两天ai2发布的一个从llama3.1上只做后训练的模型，后文有详细讲解）例如，我们从我们的完成池中移除了模型，以消除对模型输出用于衍生模型的任何限制。此外，我们更新了偏好数据，以纳入由我们的OLMo 2模型生成的策略完成。否则，在这两个阶段的监督微调（SFT）混合和偏好调整过程基本保持不变。大多数变化在这两个阶段是学习率的差异。对于最后阶段，可验证奖励的强化学习（RLVR），我们也在GSM8K和MATH等关键评估中看到了一致的改进，无论是7B还是13B模型。有关Tülu 3，关键信息我放在下面：

Tülu 3 模型（如下图），主要包括四个训练阶段。

阶段一：数据整理。Ai2 整理了各种提示（prompt）信息，并将其分配到多个优化阶段。他们创建了新的合成提示，或在可用的情况下，从现有数据集中获取提示，以针对特定能力。他们确保了提示不受评估套件 Tülu 3 EVAL 的污染。图片

阶段二：监督微调。Ai2 利用精心挑选的提示和回答结果进行监督微调（SFT）。在评估框架指导下，他们通过全面的实验，确定最终的 SFT 数据和训练超参数，以增强目标核心技能，同时不对其他技能的性能产生重大影响。

阶段三：偏好微调。 Ai2 将偏好微调 —— 特别是 DPO（直接偏好优化）—— 应用于根据选定的提示和 off-policy 数据构建的新 on-policy 合成偏好数据。与 SFT 阶段一样，他们通过全面的实验来确定最佳偏好数据组合，从而发现哪些数据格式、方法或超参数可带来改进。

阶段四：具有可验证奖励的强化学习。 Ai2 引入了一个新的基于强化学习的后训练阶段，该阶段通过可验证奖励（而不是传统 RLHF PPO 训练中常见的奖励模型）来训练模型。他们选择了结果可验证的任务，例如数学问题，并且只有当模型的生成被验证为正确时才提供奖励。（例如，代码是不是能跑出预期结果，数学题算的对不对等客观指标）然后，他们基于这些奖励进行强化学习训练。