自从2024年2月首次发布OLMo以来,我们见证了开放语言模型生态系统的快速增长,以及开放模型与专有模型之间性能差距的缩小。OLMo-0424相对于我们在2月份的首次发布,在下游性能上有了显著提升。我们还对完全开放模型开发的参与度增加感到兴奋,特别是包括LLM360的Amber、M-A-P的Neo模型和DCLM的基线模型。9月,我们发布了OLMoE,这是一个专家混合模型,也是其完全开放的同行中第一个位于性能和大小的帕累托前沿的模型。
因为完全开放的科学不仅仅需要开放的权重,我们很高兴分享新一轮的OLMo更新——包括权重、数据、代码、配方、中间检查点和指令调整模型——和更开放的语言建模社区!
地址:https://github.com/allenai/OLMo
OLMo 2发布
OLMo 2正式发布,一个新系列的7B和13B模型,训练了高达5T的token。这些模型与同等大小的完全开放模型相当或更好,并且在英语学术基准测试中与开放权重模型如Llama 3.1可以一较高下。
我们通过提升我们的核心模型的各典型环节,深入探讨了那些大家藏着掖着的模型训练技巧,包括:
-
训练稳定性。长时间的模型训练可能会受到训练不稳定性和损失峰值的困扰,这与最终模型性能降低有关。我们即将发布的技术报告将讨论我们用来提高长时间预训练运行稳定性的技术,这对于确保最终训练模型的性能至关重要。
-
分阶段训练:预训练后期的干预。预训练是缓慢且昂贵的,这促使我们寻找解决方案来克服在长时间训练过程中发现的知识或能力缺陷。我们将讨论学习率退火和数据课程作为干预措施,可以在预训练过程的后期应用,以“修补”在训练早期未能成功获得的模型能力。
-
最先进的后训练配方。我们将最先进的后训练方法从Tülu 3应用到OLMo 2模型上,创建了OLMo 2-Instruct模型。在我们的Ai2游乐场中尝试OLMo 2-Instruct-13B,这是我们最能干的OLMo 2模型。
-
可操作的评估框架。对于OLMo 2,我们建立了明确的性能目标和任务扩展法则,并设计了一个评估框架(开放语言建模评估系统,OLMES),帮助指导开发阶段的改进。OLMES由20个评估基准组成,用于评估模型的核心能力,如知识回忆和常识、一般和数学推理,转变为最大化小规模实验中评估模型改进的信噪比。
我们在下面总结了OLMo 2的关键点;技术报告将很快提供,再稍微等等。
我们使用OLMES中的一系列任务评测OLMo 2与其他开放模型。我们将基准测试分为dev,我们在OLMo开发过程中跟踪这些基准测试(例如,ARC Challenge、HellaSwag、WinoGrande、MMLU、DROP和Natural Questions)和没见过的测试集,我们直到模型开发完成后才计算指标(例如,AGIEval、MMLU Pro、GSM8k、TriviaQA)。
我们将OLMo 2与一组基线模型进行比较,我们将这些模型分为三个家族:
-
开放权重模型:仅发布最终检查点的模型,关于它们的训练数据和配方的信息非常有限或未知;
-
部分开放模型:发布了权重和大部分数据(或复制它们所需的详细信息)的模型;
-
完全开放模型:发布了权重、训练数据、代码和完整评估的模型,因此可以完全检查和复制。
首先,我们发现OLMo 2 7B和13B是迄今为止最好的完全开放模型,经常超越同等大小的开放权重模型。我们不仅观察到与我们早期的OLMo 0424模型相比,所有任务的性能都有显著提升,而且值得注意的是,OLMo 2 7B超越了LLama-3.1 8B,OLMo 2 13B超越了Qwen 2.5 7B,尽管它的总训练FLOPs更低。OLMo 2模型位于训练FLOPs与模型平均性能的帕累托前沿(见上图)。
总的来说,我们发现在dev指标上观察到的增益在很大程度上转化为我们未见的评估套件。当然,我们不能保证我们在开发OLMo 2时认为未见的任务不是我们比较的其他模型的dev集的一部分。尽管如此,我们认为模型开发者应该保持一部分评估任务未见应该是标准做法;此外,我们鼓励其他开放权重模型开发者明确声明哪些任务在模型开发期间用作参考。
预训练OLMo 2
OLMo 2的架构与第一个OLMo相似,但有几个关键变化,以提高训练稳定性,例如从非参数层标准化切换到RMSNorm(张和森里奇2019年)、按照刘等人(2022年)的顺序重新排列层标准化,并采用Dehghani等人(2023年)的QK-Norm,以及用旋转位置嵌入替换绝对位置嵌入,如苏等人(2023年)所述。我们还采用了Wortsman等人(2023年)和变色龙论文中看到的Z-loss正则化,以及改进的初始化,更好地保持了跨层的激活和梯度的规模。更多细节将在我们即将发布技术报告中讨论。
OLMo 2分为两个阶段进行预训练,使用与Blakeney等人(2024年)类似的课程方法。
在第一阶段,占总预训练预算的90%以上,我们使用OLMo-Mix-1124,这是一个来自DCLM、Dolma、Starcoder和Proof Pile II的大约3.9万亿个token的集合。OLMo 2 7B在这个数据集上训练了大约一个周期,而OLMo 2 13B训练了1.2个周期,高达5T个token。
在第二阶段,我们策划了(a)经过过滤的高质量网络数据和(b)一系列特定领域的高质量数据(学术内容、问答论坛、指令数据和数学练习册,包括合成和人工生成的)。这个集合作为Dolmino-Mix-1124提供。总共,它由843亿个token组成,我们采样创建了3个混合,分别为50亿、100亿和300亿个token,每个混合中有50%的数据来自(a)和(b)。
对于OLMo 2 7B,我们从第一阶段的最终检查点训练了3份50B混合的不同数据顺序的副本。与之前的OLMo版本一致,我们从第一阶段结束后的线性退火学习率为零。然后,我们使用称为模型汤(Wortsman等人,2022年)的技术将它们合并,以获得最终的基础检查点。对于OLMo 2 13B,我们重复这个过程,但创建了使用100Btoken的三个模型,以及使用300Btoken的另一个模型。它们被合并以创建最终的13B基础检查点。
制作OLMo 2 Instruct
上周,我们发布了Tülu 3,我们的一系列最先进的、完全开放的后训练模型,以及数据、代码、配方等。这些配方结合了多种类型的训练技术,包括在模型提示完成上的监督微调(SFT)、偏好调整与DPO,以及可验证奖励的强化学习(RLVR)。我们将最佳配方应用于OLMo 2模型,并在Tülu 3评估套件中评估它们,该套件在OLMES中实现,包括评估模型的指令遵循、知识回忆和数学及一般推理能力的基准。
我们的OLMo 2的Instruct变体与最佳开放权重模型竞争,OLMo 2 13B Instruct超越了Qwen 2.5 14B Instruct、Tülu 3 8B和Llama 3.1 8B Instruct模型。
我们发现,Tülu 3配方可以大部分应用于OLMo 2模型,而无需昂贵的定制。(Tülu 3是前两天ai2发布的一个从llama3.1上只做后训练的模型,后文有详细讲解)例如,我们从我们的完成池中移除了模型,以消除对模型输出用于衍生模型的任何限制。此外,我们更新了偏好数据,以纳入由我们的OLMo 2模型生成的策略完成。否则,在这两个阶段的监督微调(SFT)混合和偏好调整过程基本保持不变。大多数变化在这两个阶段是学习率的差异。对于最后阶段,可验证奖励的强化学习(RLVR),我们也在GSM8K和MATH等关键评估中看到了一致的改进,无论是7B还是13B模型。有关Tülu 3,关键信息我放在下面:
Tülu 3 模型(如下图),主要包括四个训练阶段。
阶段一:数据整理。Ai2 整理了各种提示(prompt)信息,并将其分配到多个优化阶段。他们创建了新的合成提示,或在可用的情况下,从现有数据集中获取提示,以针对特定能力。他们确保了提示不受评估套件 Tülu 3 EVAL 的污染。图片
阶段二:监督微调。Ai2 利用精心挑选的提示和回答结果进行监督微调(SFT)。在评估框架指导下,他们通过全面的实验,确定最终的 SFT 数据和训练超参数,以增强目标核心技能,同时不对其他技能的性能产生重大影响。
阶段三:偏好微调。Ai2 将偏好微调 —— 特别是 DPO(直接偏好优化)—— 应用于根据选定的提示和 off-policy 数据构建的新 on-policy 合成偏好数据。与 SFT 阶段一样,他们通过全面的实验来确定最佳偏好数据组合,从而发现哪些数据格式、方法或超参数可带来改进。
阶段四:具有可验证奖励的强化学习。Ai2 引入了一个新的基于强化学习的后训练阶段,该阶段通过可验证奖励(而不是传统 RLHF PPO 训练中常见的奖励模型)来训练模型。他们选择了结果可验证的任务,例如数学问题,并且只有当模型的生成被验证为正确时才提供奖励。(例如,代码是不是能跑出预期结果,数学题算的对不对等客观指标)然后,他们基于这些奖励进行强化学习训练。
读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费
】🆓
👉AI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉大模型视频和PDF合集👈
观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费
】🆓