Tülu 3 为更多任务和更多人员开放语言模型后期培训

让我们来谈谈训练模型。每个人通常都会想到预训练阶段,这个阶段需要数百万美元的计算和数万亿个代币。但预训练阶段结束后的模型还不能使用,它缺乏安全措施,不能有效地听从人类指令。这就是我们进行后训练的原因,后训练通常包括指令微调和从人类反馈中学习,以便使模型为各种下游用例做好准备。

在这里插入图片描述
早期的语言模型后训练工作遵循的是由 InstructGPT 等模型开创的标准配方,包括指令调整和偏好微调。然而,后训练是一个极具挑战性的过程;在向模型传授更专业的能力(如编码技能)时,可能会削弱其他能力,如写诗或遵循指令。如何获得正确的数据组合和超参数,使模型在获得新知识和技能的同时又不丧失一般能力,是一项棘手的工作。

为了解决这个问题,OpenAI、Anthropic、Meta 和谷歌等大型模型训练机构提高了后期训练方法的复杂性和精密度,转向多轮训练、人类数据和合成数据,以及多种训练算法和训练目标。这就是为什么在这些模型中经常可以看到专业知识和通用能力。不过,它们的训练数据和训练方法对用户都不透明。

到目前为止,开源模型的后期训练一直落后于封闭模型。在 LMSYS 的 ChatBotArena 上,排名前 50 的模型(截至 2024 年 11 月 20 日)都没有公布其训练后数据。即使是主要的开放式模型,也没有发布任何数据或它们用来实现这种训练后神奇效果的配方细节。

今天,我们发布了 Tülu 3,这是一个开放的、最先进的后训练模型系列,以及所有数据、数据组合、配方、代码、基础设施和评估框架。Tülu 3 推动了后训练研究的发展,缩小了开放式和封闭式微调配方之间的性能差距。为了缩小这一差距,我们需要创建新的数据集和新的训练程序。我们介绍了利用强化学习直接在可验证的问题上进行训练的新方法,以及如何利用模型自身的世代来创建高性能的偏好数据。

我们的最佳模型来自复杂的训练过程,该过程将专有方法中的部分细节与新技术和成熟的学术研究融为一体。我们的成功源于精心的数据整理、严格的实验、创新的方法和改进的培训基础设施。我们遵循系统指南,通过创建开发集和测试集进行评估,并对公开数据集进行仔细净化,从而对这一过程进行科学评估。通过《图鲁 3》,我们记录了所有这些工作,还报告了负面结果,以节省开放研究社区的精力。

在这里插入图片描述
Tülu 3 的数据集、训练方法和评估套件的开发阶段。

Tülu 3 不仅仅是一件艺术品,还是一套全面的数据和工具,旨在推动开放式培训后的前沿发展。

Tülu 3 是一个非常现代化的后训练堆栈,完全开源,包含复制我们的结果所需的所有代码和细节:关于评估、净化和配方设计的广泛指导 成比例的新合成指令数据集、使用政策生成的成比例偏好数据、使用可验证奖励的强化学习、一种使用无奖励模型的 RL 来提高特定技能的新方法

通过公开分享我们的数据、配方和研究结果,我们旨在让社区有能力探索新的和创新的后期培训方法。

在这里插入图片描述
现在,有了 Tülu 3 模型和配方,任何人都可以对模型进行后训练,其效果不亚于 GPT、Claude 和 Gemini。

这意味着任何研究人员、开发人员、人工智能从业者或企业家都可以针对自己的使用案例对开源模型进行后训练,使其达到领先的封闭模型的质量。随着 Tülu 3 的发布,开发人员和 AI 构建者现在可以使用开源模型,并根据自己的数据调整模型,同时不会丧失根据 Tülu 3 数据和配方所掌握的一般核心技能。

在这里插入图片描述
在这里插入图片描述

混合和匹配您的数据

Tülu 3 发布了多个去污数据集,使您能够针对特定技能和能力进行后期培训,例如知识回忆、指令遵循、推理、数学、编码和多语言互动。您可以将 Tülu 3 数据与任何您想使用的特定技能数据进行混合和匹配。配方可以帮助您平衡数据集,因此,如果您想建立一个既能编码,又能精确地按照指令进行操作并能用多种语言说话的模型,您只需选择特定的数据集,然后按照配方中的步骤操作即可。

不需要太多计算

我们已经发布了一系列模型尺寸和所有检查点,这意味着您可以选择您想要的模型尺寸和训练阶段,既可以开箱即用(在此试用),也可以在您自己的数据或可用的混合数据上进行后期训练。

评估模型的简单方法

比较语言模型评估是出了名的困难,因为评估涉及到很多小细节,其他开发人员往往无法复制。我们发布了一个评估框架,让开发人员可以指定所有这些设置,并轻松重现我们为 Tülu 3 进行的所有评估。

将管道连接在一起

混合和匹配数据、设置参数以及跟踪所有后训练集可能会很困难,尤其是当您转向像 70B 这样的大型模型时。因此,我们在 Tülu 3 中发布了所有基础架构代码,这样您就可以轻松设置从数据选择到评估的所有流程。

Paper:https://allenai.org/papers/tulu-3-report.pdf
Github: https://github.com/allenai/open-instruct

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值