OLMo2全开源LLM,含数据、代码和训练过程

自从2024年2月首次发布OLMo以来,我们见证了开放语言模型生态系统的快速增长,以及开放模型与专有模型之间性能差距的缩小。OLMo-0424相对于我们在2月份的首次发布,在下游性能上有了显著提升。我们还对完全开放模型开发的参与度增加感到兴奋,特别是包括LLM360的Amber、M-A-P的Neo模型和DCLM的基线模型。9月,我们发布了OLMoE,这是一个专家混合模型,也是其完全开放的同行中第一个位于性能和大小的帕累托前沿的模型。

因为完全开放的科学不仅仅需要开放的权重,我们很高兴分享新一轮的OLMo更新——包括权重、数据、代码、配方、中间检查点和指令调整模型——和更开放的语言建模社区!

地址:https://github.com/allenai/OLMo

一、OLMo 2发布

OLMo 2正式发布,一个新系列的7B13B模型,训练了高达5T的token。这些模型与同等大小的完全开放模型相当或更好,并且在英语学术基准测试中与开放权重模型如Llama 3.1可以一较高下。

我们通过提升我们的核心模型的各典型环节,深入探讨了那些大家藏着掖着的模型训练技巧,包括:

  • 训练稳定性。长时间的模型训练可能会受到训练不稳定性和损失峰值的困扰,这与最终模型性能降低有关。我们即将发布的技术报告将讨论我们用来提高长时间预训练运行稳定性的技术,这对于确保最终训练模型的性能至关重要。

  • 分阶段训练:预训练后期的干预。预训练是缓慢且昂贵的,这促使我们寻找解决方案来克服在长时间训练过程中发现的知识或能力缺陷。我们将讨论学习率退火数据课程作为干预措施,可以在预训练过程的后期应用,以“修补”在训练早期未能成功获得的模型能力。

  • 最先进的后训练配方。我们将最先进的后训练方法从Tülu 3应用到OLMo 2模型上,创建了OLMo 2-Instruct模型。在我们的Ai2游乐场中尝试OLMo 2-Instruct-13B,这是我们最能干的OLMo 2模型。

  • 可操作的评估框架。对于OLMo 2,我们建立了明确的性能目标和任务扩展法则,并设计了一个评估框架(开放语言建模评估系统,OLMES),帮助指导开发阶段的改进。OLMES由20个评估基准组成,用于评估模型的核心能力,如知识回忆和常识、一般和数学推理,转变为最大化小规模实验中评估模型改进的信噪比。

我们在下面总结了OLMo 2的关键点;技术报告将很快提供,再稍微等等。

我们使用OLMES中的一系列任务评测OLMo 2与其他开放模型。我们将基准测试分为dev,我们在OLMo开发过程中跟踪这些基准测试(例如,ARC Challenge、HellaSwag、WinoGrande、MMLU、DROP和Natural Questions)和没见过的测试集,我们直到模型开发完成后才计算指标(例如,AGIEval、MMLU Pro、GSM8k、TriviaQA)。

我们将OLMo 2与一组基线模型进行比较,我们将这些模型分为三个家族:

  • 开放权重模型:仅发布最终检查点的模型,关于它们的训练数据和配方的信息非常有限或未知;
  • 部分开放模型:发布了权重和大部分数据(或复制它们所需的详细信息)的模型;
  • 完全开放模型:发布了权重、训练数据、代码和完整评估的模型,因此可以完全检查和复制。

首先,我们发现OLMo 2 7B和13B是迄今为止最好的完全开放模型,经常超越同等大小的开放权重模型。我们不仅观察到与我们早期的OLMo 0424模型相比,所有任务的性能都有显著提升,而且值得注意的是,OLMo 2 7B超越了LLama-3.1 8B,OLMo 2 13B超越了Qwen 2.5 7B,尽管它的总训练FLOPs更低。OLMo 2模型位于训练FLOPs与模型平均性能的帕累托前沿(见上图)。

总的来说,我们发现在dev指标上观察到的增益在很大程度上转化为我们未见的评估套件。当然,我们不能保证我们在开发OLMo 2时认为未见的任务不是我们比较的其他模型的dev集的一部分。尽管如此,我们认为模型开发者应该保持一部分评估任务未见应该是标准做法;此外,我们鼓励其他开放权重模型开发者明确声明哪些任务在模型开发期间用作参考

二、预训练OLMo 2

OLMo 2的架构与第一个OLMo相似,但有几个关键变化,以提高训练稳定性,例如从非参数层标准化切换到RMSNorm(张和森里奇2019年)、按照刘等人(2022年)的顺序重新排列层标准化,并采用Dehghani等人(2023年)的QK-Norm,以及用旋转位置嵌入替换绝对位置嵌入,如苏等人(2023年)所述。我们还采用了Wortsman等人(2023年)和变色龙论文中看到的Z-loss正则化,以及改进的初始化,更好地保持了跨层的激活和梯度的规模。更多细节将在我们即将发布技术报告中讨论。

OLMo 2分为两个阶段进行预训练,使用与Blakeney等人(2024年)类似的课程方法。

第一阶段,占总预训练预算的90%以上,我们使用OLMo-Mix-1124,这是一个来自DCLM、Dolma、Starcoder和Proof Pile II的大约3.9万亿个token的集合。OLMo 2 7B在这个数据集上训练了大约一个周期,而OLMo 2 13B训练了1.2个周期,高达5T个token。

第二阶段,我们策划了(a)经过过滤的高质量网络数据和(b)一系列特定领域的高质量数据(学术内容、问答论坛、指令数据和数学练习册,包括合成和人工生成的)。这个集合作为Dolmino-Mix-1124提供。总共,它由843亿个token组成,我们采样创建了3个混合,分别为50亿、100亿和300亿个token,每个混合中有50%的数据来自(a)和(b)。

对于OLMo 2 7B,我们从第一阶段的最终检查点训练了3份50B混合的不同数据顺序的副本。与之前的OLMo版本一致,我们从第一阶段结束后的线性退火学习率为零。然后,我们使用称为模型汤(Wortsman等人,2022年)的技术将它们合并,以获得最终的基础检查点。对于OLMo 2 13B,我们重复这个过程,但创建了使用100Btoken的三个模型,以及使用300Btoken的另一个模型。它们被合并以创建最终的13B基础检查点。

三、制作OLMo 2 Instruct

上周,我们发布了Tülu 3,我们的一系列最先进的、完全开放的后训练模型,以及数据、代码、配方等。这些配方结合了多种类型的训练技术,包括在模型提示完成上的监督微调(SFT)、偏好调整与DPO,以及可验证奖励的强化学习(RLVR)。我们将最佳配方应用于OLMo 2模型,并在Tülu 3评估套件中评估它们,该套件在OLMES中实现,包括评估模型的指令遵循、知识回忆和数学及一般推理能力的基准。

我们的OLMo 2的Instruct变体与最佳开放权重模型竞争,OLMo 2 13B Instruct超越了Qwen 2.5 14B Instruct、Tülu 3 8B和Llama 3.1 8B Instruct模型。

我们发现,Tülu 3配方可以大部分应用于OLMo 2模型,而无需昂贵的定制。(Tülu 3是前两天ai2发布的一个从llama3.1上只做后训练的模型,后文有详细讲解)例如,我们从我们的完成池中移除了模型,以消除对模型输出用于衍生模型的任何限制。此外,我们更新了偏好数据,以纳入由我们的OLMo 2模型生成的策略完成。否则,在这两个阶段的监督微调(SFT)混合和偏好调整过程基本保持不变。大多数变化在这两个阶段是学习率的差异。对于最后阶段,可验证奖励的强化学习(RLVR),我们也在GSM8K和MATH等关键评估中看到了一致的改进,无论是7B还是13B模型。有关Tülu 3,关键信息我放在下面:

Tülu 3 模型(如下图),主要包括四个训练阶段。

阶段一:数据整理。Ai2 整理了各种提示(prompt)信息,并将其分配到多个优化阶段。他们创建了新的合成提示,或在可用的情况下,从现有数据集中获取提示,以针对特定能力。他们确保了提示不受评估套件 Tülu 3 EVAL 的污染。图片

阶段二:监督微调。Ai2 利用精心挑选的提示和回答结果进行监督微调(SFT)。在评估框架指导下,他们通过全面的实验,确定最终的 SFT 数据和训练超参数,以增强目标核心技能,同时不对其他技能的性能产生重大影响。

阶段三:偏好微调。 Ai2 将偏好微调 —— 特别是 DPO(直接偏好优化)—— 应用于根据选定的提示和 off-policy 数据构建的新 on-policy 合成偏好数据。与 SFT 阶段一样,他们通过全面的实验来确定最佳偏好数据组合,从而发现哪些数据格式、方法或超参数可带来改进。

阶段四:具有可验证奖励的强化学习。 Ai2 引入了一个新的基于强化学习的后训练阶段,该阶段通过可验证奖励(而不是传统 RLHF PPO 训练中常见的奖励模型)来训练模型。他们选择了结果可验证的任务,例如数学问题,并且只有当模型的生成被验证为正确时才提供奖励。(例如,代码是不是能跑出预期结果,数学题算的对不对等客观指标)然后,他们基于这些奖励进行强化学习训练。


四、最后分享

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值