[论文翻译]SFT的数据构成如何影响LLM的能力

强化学习曾小健

已于 2024-07-08 10:57:56 修改

阅读量1k

点赞数 6

分类专栏： # 大模型数据准备/预处理文章标签：大语言模型

于 2024-07-07 17:10:44 首次发布

本文链接：https://blog.csdn.net/sinat_37574187/article/details/140248748

版权

大模型数据准备/预处理专栏收录该内容

13 篇文章

订阅专栏

SFT的数据构成如何影响LLM的能力

技术总结专栏

分享阿里的一篇论文。探讨了大语言模型在监督式微调过程中，不同任务（数学推理、代码生成、通用人类对齐）数据构成对训练产生的影响

不同能力的扩展模式

数学推理：与数据量呈正相关，即数据量越大，模型在数学问题上的表现越好。
代码生成：同样随着数据量的增加而提高，但当模型参数数量较少时，其表现可能不规则。
通用能力：在大约一千个样本后，性能提升趋于平缓，表明可能存在一个性能饱和点。

数据组成对能力的影响

在数据量有限的情况下，混合不同来源的数据可以相互促进，提高模型性能。
当数据量充足时，来自其他领域的数据可能被视为噪声，影响模型在特定任务上的表现。

数据量与性能

实验结果表明，数据量是影响模型性能的关键因素，而数据的组成比例影响较小。

SFT策略分析

训练策略对比图（K小于1）

模型规模与性能

多任务学习：可能导致专业能力受损，尤其是通用能力。
单任务顺序训练：可以保留通用能力，但可能导致先前学习的专业能力被遗忘。
双阶段混合微调（DMT）：通过在专业数据上先进行SFT，然后在包含少量专业数据的通用数据上进行第二阶段的SFT，有效缓解了灾难性遗忘问题。
较大的模型在处理相同数据量时，通常能够展现出更好的性能，这表明模型规模是提升性能的一个重要因素。

有监督的微调数据组合如何影响大型语言模型中的能力
董冠庭*，易宏Yuan*，Lu，薛明峰Li*，刘大一恒，王，元铮，周畅，周敬仁
阿里巴巴集团{dongguanting.dgt,yuanzheng.yuanzhen,ericzhou.zc}@alibaba-
inc.com
摘要
具有大量预训练标记和参数的大型语言模型
(法学硕士)具有多种能力，包括数学推理、
代码生成和指令遵循。这些能力通过监督微
调(SFT)进一步增强。虽然开源社区已经探索
了用于增强个人能力的特殊SFT，但专有法
学硕士展示了跨各种技能的多功能性。因此，
通过SFT理解多种能力的促进是至关重要的。
在这项研究中，我们特别关注SFT期间数学
推理、代码生成和一般人类对齐能力之间的
数据组成的相互作用。我们提出了四个有趣
的研究问题来探讨模型性能与数据量、组成
比、模型大小和SFT策略等因素之间的关系。
我们的实验表明，不同的能力规模不同，较
大的模型通常在相同的数据量下表现出更好
的性能。数学推理和代码生成随着数据量的
增加而不断提高，而一般能力在大约1000个
样本后趋于平稳。此外，我们观察到数据组
合似乎在有限的数据条件下增强了各种能力，
但在数据丰富时可能导致性能冲突。我们的
研究结果还表明，组成数据的数量比组成比
例更能影响性能。在对SFT策略的分析中，
我们发现连续学习多种技能存在灾难性遗忘
的风险。我们提出的双阶段学习
混合微调(DMT)策略为学习具有不同缩放模
式的多种能力提供了一个有希望的解决方案。
1 简介
最近的研究已经证明了大型语言模型(法学硕士)
在处理各种现实世界中的能力
用自然语言表达的任务(欧阳等;
2022a;Anil等人，2023;OpenAI, 2023;Luo等人，
2023a)，特别是信息提取(IE) (Lu等，2022;Xu等
人，2023b;Zhao等，2023;Cheng等，2023d;王等，
2023b;张等，2024b;Li et al.， 2024)， Informatio
n Retrieval (IR) (Zhu et al.， 2024;Liu et al.，
2024c)和Spo-ken Language Understanding (SLU)
(Hoscilowicz et al.， 2024;Yin等人，2024;Cheng
等，2023a，
2024;Dong et al.， 2023a)。在这些任务中，法
学硕士尤其在推理方面表现出三种突出的能力
(Cobbe et al.， 2021;Wei 等人，2022)，编码
(Chen等人，2021)，以及调整一般人类意图(欧
阳等人，2022a)，这些都引起了法学硕士研究
界的广泛关注。为了进一步激励这种能力，需
要在注释任务数据上进行监督微调(SFT)阶段。
然而，现有的研究大多是对这三个任务分
别进行单独的SFT调查，其中推理和编码能力需
要对域内人工注释或增强数据进行SFT (元铮等，
2023b;Luo et al.， 2023b;Yu et al.， 2024)，而多
样化和复杂的人类指令因协调人类意图而受到
称赞(王等人，2023;Taori et al.， 2023;程等，
2023c;徐等人，2023a;周等人，2023a;王等，
2023a;Lu等人，2023)。正如专有法学硕士(如
GPT-4 (OpenAI, 2023)和Claude)的强劲表现所显
示的那样，法学硕士有可能掌握一个模型中的
所有任务。因此，研究SFT与复合任务数据的通
用性能至关重要，理解和解决SFT阶段数据组合
问题带来的挑战对于进一步全面提高法学硕士
的能力至关重要。
从本质上讲，推理、编码和对齐人类意图
的任务具有不同的特征。推理和编码任务都需
要ad-
* Work done during internships at Alibaba Group.
arXiv:2310.05492v4 [cs.]CL] 2024年6月7日
在分解任务指令和处理非语言和符号特征时复
杂和详细逻辑的特殊能力(Chen等人，2021;
Huang and Chang, 2023)，而对齐人类意图需要
通用性和理解人类指令中表达的模糊意图(Lu
et al.， 2023)。鉴于任务之间的根本差异，对
小型预训练语言模型进行复合数据微调的多任
务学习容易发生灾难性遗忘(De Lange et al.，
2022)，阻碍了一个模型在单独任务上的微调
性能。已经做出了许多努力来补偿这种现象
(Liang et al.， 2021;Xu et al.， 2021;Yuan et
al.， 2023a)。也有研究发现，扩大预训练语言
模型规模和微调数据规模有利于各种语言任务
的零概率域外泛化，而忽略了域内性能的评估
(Sanh et al.， 2022;Chung et al.， 2022a;
Longpre et al.， 2023)。鉴于法学硕士容量的增
加，SFT在本质上不同下游任务的复合数据上
的多任务性能研究较少。了解复合数据和相应
的缩放模式下的SFT性能在实践中具有重要的
实用价值。
在本研究中，我们关注SFT中数学推理、
代码生成和一般人类对齐能力之间的数据组合
问题。我们的目标是全面研究模型性能与不同
因素的关系，包括数据量、数据组成比、模型
尺度和SFT训练策略。我们还研究了在不同尺
度下这种关系是如何变化的。具体来说，我们
主要关注以下四个研究问题:
1. 数学推理、编码和一般能力如何与SFT数
据量相匹配?
2. 当在SFT中结合这三种能力时，是否存在性
能冲突?
3. 诱发绩效冲突的关键因素是什么?
4. 不同的SFT策略对复合数据的影响是什么?
为了回答这些问题，我们在三个基准上进
行了实验，分别是用于数学推理的GSM8K
(Cobbe等人，2021)，用于编码的HumanEval
(Chen等人，2021)和用于一般人类校准的MT-
Bench (Zheng等人，2023)。我们根据相关训练
数据对法学硕士进行微调，以激活这些能力。
此外，我们对
•多任务学习导致冲突，而顺序训练导致
灾难性遗忘。我们提出的DMT有效地缓
解了SFT阶段的绩效冲突和灾难性遗忘，
实现了一般能力和专业能力之间的平衡。
2 相关作品
大型语言模型的监督微调大型语言模型(法学
硕士)在各个领域都表现出显著的零射击性能
(Brown等人，2020;Wu et al.， 2021;侯等人，
2024;董等，2023b;周等，2024;Wu等，2023;
Song et al.， 2023)，促使进一步发展以推动这
些模型的边界。为了更深入地挖掘他们的潜力，
法学硕士受到监督微调(SFT)阶段的影响，提
高他们解决任务的能力，并更好地与人类指令
保持一致。在这里，我们扩展了SFT的传统定
义，以包括各种形式的序列到序列微调，例如
人类校准，指令遵循和特定领域任务优化的微
调(周等人，2023b;Yuan et al.， 2023c;Cheng等，
2023b;Zhang et al.， 2024a)。
从LLaMA 7B到33B的模型参数尺度进行了广
泛的分析(touvron et al.， 2023)，并探索了图1
所示的四种不同的SFT策略:多任务学习、顺序
训练、混合顺序训练和双阶段混合微调(DMT)，
为学习具有复合SFT的多功能LLM提供经验指
导。本文的主要发现可以总结如下:
•不同的SFT能力表现出不同的尺度模式，
而在相同的数据量下，较大的模型通常表
现出更好的性能。
•与单能力学习相比，多任务学习多能力
在低资源条件下表现出提高，在高资源条
件下表现出下降。此外，随着模型大小的
增加，在低资源设置下，数学和一般能力
的性能获得了更大的提升。
•数据量直接影响每个能力，而数据比例
是不显著的。
图1:本文对四种不同训练策略的说明。
最近的研究深入研究了预训练法学硕士的
多任务教学微调，以增强其在众多下游NLP任
务中的零射击性能(Sanh et al.， 2022)。为了全
面涵盖现有的NLP任务，Chung等人;Longpre等
人专门为基于指令的微调策划了扩展的FLAN
数据集。法学硕士，无论是开源的(Chung等人，
2022b)还是专有的(Singhal等人，2022)，经过
FLAN的微调，已经在各种看不见的任务上展
示了增强的零射性能。
虽然有研究探讨了法学硕士在非分布域内
的泛化能力(刘等人，2024a;Yuan等，2024;
Wang等人，2024a)，多任务训练对领域内绩效
的影响仍未得到充分探讨。随着专有模型(如
Chat-GPT)的兴起，将法学硕士与人类意图相
结合的SFT的关注得到了加强(Ouyang等人，
2022b)。远离众包SFT数据，最近的举措是从
专有LLM平台的用户日志中生成SFT数据集
(Chi-ang等人，2023;Wang等人，2023a)，利用
模型本身来辅助数据生成过程(Wang等人，
2023d;Taori等人，2023;程等，2023d;Lei等，
2023;徐等，2023a;Xue et al.， 2023)。此外，
还提出了提高SFT数据质量的方法，目标是更
准确地与人类互动保持一致(Zhou等人，2023a;
Wang等，2023c;Lu等，2023;刘等，2009)。
此外，SFT已被证明对数学推
理等专业领域的法学硕士有益(Cobbe等人，
2021;Hendrycks et al.， 2021;Yuan 等，20023b;
陈等，2024;Yue等，2023;Gou等，2024;Li等，
2023;Yue等人，2024)和代码生成任务(Chaudha
ry, 2023;Luo 等人，2023b;Wang 等，20124b;
Wei et al.， 2023)。利用其先进的交互功能，
一些研究人员利用受监督的微调法学硕士来编
写与外部工具接口的命令，从而增强对各种下
游应用程序的处理(Shen等人，2023;Yao et
al.， 2023b,a;Song等，2024;Fu et al.， 2024)。
本文使用复合数据集考察了SFT性能，考虑了
不同的模型大小和数据量。
大型语言模型中的缩放定律
法学硕士的卓越性能来自于将模型大小、数据
量和计算成本扩展到大规模。因此，在指数范
围内探索模型性能是至关重要的。已经做了很
多努力来讨论预训练的尺度规律(Anil et al.，
2023;Hoffmann 等人，2022)、迁移学习
(Chronopoulou等人，2019)、偏好建模(Gao等
人，2022)和数学推理(Yuan等人，2023b)。本
文还从不同尺度的模型大小和数据量的角度探
讨了复合数据下的SFT性能。
3 实验
我们有SFT数据集{D1, D2，…， Dk}，其中每
个Di = {qi,j, ri,j}j包含来自一个源的查询和响应。
我们认为每个SFT数据集对应于一种能力，我
们也有k个域内指标来衡量它们。我们研究了具
有不同数据集组成(D∧∪1≤i≤k Di)的域内度
量的性能，以及不同大小的法学硕士上的训练
策略。
3.1 实验设置
我们收集了三个SFT数据集{D1, D2, D3}，包括
GSM8K RFT (Yuan等人，2023b)， Code Alpaca
(Chaudhary, 2023) 和 ShareGPT (Chiang 等人，
2023)，分别表示数学推理，编码和一般人类对
齐能力SFT数据集。我们将通过这三个数据集
集成一个新的SFT数据集D，以研究数据组合如
何影响模型性能。我们使用GSM8K测试集
(Cobbe等人，2021)、HumanEval (陈等人，2021)
和MT-Bench (Zheng等人，2023)来测量包括数
学推理、编码和一般人类匹配在内的能力。我
们使用LLaMA (Touvron等人，2023)系列作为预
训练的语言模型，并使用FastChat框架(Zheng等
人，2023)进行微调。我们用3个epoch和峰值的
2e-5学习率对模型进行微调。SFT期间的批大小
为16。关于SFT数据集、评估指标、实施和培
训flop的更多细节可在附录A、B、C和D中找到。
3.2 rq1。个人能力表现vs.数据量
指令跟随能力可以通过SFT在包含大约10万个
样本的ShareGPT等数据集上激活。然而，(Zhou
等人，2023a)表明，强基础模型可以实现人类
与1000个样本的比对。数学推理等专业能力需
要大量数据(Cobbe等人，2021;Yuan等人，
2023b)，不像一般的能力。因此，研究每种能
力如何随着数据量的增加而提高是至关重要的。
实验设计:我们分别使用GSM8K RFT、
Code Alpaca和ShareGPT获得的训练集的{1,1 / 4,
1 / 16,1 / 64,1 /256}的比例对各种大小的羊驼进
行SFT。这使我们能够用不同的数据大小和模
型大小来评估每种能力。
图2:不同尺寸的羊驼在三个单独域中的缩放曲线。
结果与分析。图2显示了SFT后不同能力的
个体数据缩放曲线。我们发现:不同的能力表现
出不同的缩放曲线。更具体地说，数学推理能
力与各种模型尺寸的数据量呈正相关，这与
(Yuan et al.， 2023b)一致。类似地，一般的人
类对齐能力表现出几乎单调递增的缩放曲线。
然而，值得注意的是，一般能力仅在1k左右的
数据样本(范围从1/256到1/64)中出现，并且在
达到一定阈值(1/64)后，它们的性能提升缓慢。
这进一步支持(Zhou et al.， 2023a)，表明少量高
质量的SFT数据可能会使llm中出现一般的人类
对齐能力。另一方面，当模型的参数计数较小
(7B & 13B)时，代码能力表现出不规则的缩放
曲线。而当参数数增加到33B时，其编码性能随
数据量呈近似对数线性趋势。一个可能的解释
是Code Alpaca和HumanEval中的样本有不同的
分布。较大的模型可以捕获域内样本中跨代码
数据分布的共享知识，这使它们能够对分布外
(OOD)样本表现出一定程度的泛化。另一个观
察结果是，通常在相同的数据量下，较大的模
型表现出更好的性能。异常值是在数据量非常
少的情况下(1/256)，较小的模型可能优于较大
的模型。如果有足够的数据，较大的模型具有
稳定的更好的性能。
3.3 rq2。性能差异vs.混合数据量
我们应该提供一个通用的模型，它要求我们混
合各种SFT数据集并应用SFT。我们想知道每种
能力如何因SFT数据集的混合而变化。我们用
不同数量的混合数据来研究它，并将它们与个
人能力表现进行比较。
实验设计:针对单个来源
图4:特定能力和一般能力在三个基准上的不同数据比率(k)。
图3:LLaMA混合主体与单个域的对比实验。
设置，与RQ1中的设置一致，我们分别使用来
自GSM8K、Code Alpaca和ShareGPT的训练数
据量{1,1 /4,1/16,1/64,1/256}对不同大小的
LLaMA模型进行了形成的微调。对于混合源
设置，我们从 GSM8K、Code Alpaca 和
ShareGPT中采样{1,1 /4,1/16,1/64,1/256}个数
量的训练数据，并按照相应的比例直接混合。
这样，我们构建了不同能力域的固定比例的
数据集，同时改变了总数据量。然后使用这
些数据集对LLaMA模型进行微调。
结果和分析。图3给出了在单独源和混合
源设置下，不同大小的LLaMA在三个基准测
试上的结果。得出以下观察结果:与单个源能
力相比，低资源条件下能力得到提高，高资
源条件下能力下降。在LLaMA-7B的情况下，
与单个源设置的数据缩放曲线相比，使用混
合源数据进行微调的模型一致地显示了高资
源(100%)下三个能力域之间的性能冲突。然
而，随着数据量的减少，在1/64至1/16的数据
范围内，观察到两种设置之间的性能转折点。
值得注意的是，使用混合源数据进行微调的
模型在低资源(1/256)下表现出性能提升，这表
明来自不同来源的SFT数据在低资源设置下相
互受益。然而，当有足够的数据时，来自其
他来源的数据可能被视为噪声
域内泛化。随着模型大小的增加，在低资源
设置下，数学和一般能力的性能增益也会增
加。在13B和33B模型的情况下，很明显，混
合源设置的缩放曲线遵循了之前分析中观察
到的类似趋势，随着数据量的扩大，性能交
叉点的存在。然而，一个关键的区别出现了，
即随着模型参数大小的增加，更大的模型在
低资源下表现出更明显的性能提升。异常值
是LLaMA-7B(仅限代码，1/256)。一个可能的
原因是引入了少量看不见的代码数据，很容
易破坏预训练模型的原始代码能力，这一点
得到了其较低的HumanEval分数(小于6)的支持。
我们的研究结果表明，在低资源条件下，较
大的语言模型在从不同数据源获取一般和专
业能力方面表现出色2。
3.4 rq3。性能差异vs.数据构成比
我们观察了高资源环境下的能力冲突，我们
想要调查冲突发生的原因。两个可能的因素
是其他能力的数据量太高或者其他能力的数
据比例太高。这里我们进行实验来考察数据
比例因素。
实验设计:我们将编码和数学作为组合的
专用数据源，并将ShareGPT作为通用数据源。
我们设计了如下三种设置，它们控制一个数
据源的数量，并改变通用数据和专用数据之
间的比例。
1. 固定通用数据，缩放专门化数据:
2To validate the generalizability of our conclusions, we further
1We also conduct "Equal Data Amount VS. Equal Data Proportion"
experiments in Appendix H
conduct the more experiments on World Knowledge, Language
Understanding and Translation in Appendix E.
我们使用一个完整的ShareGPT训练集，采样
GSM8K RFT和Code Alpaca的不同比例{1,1 /4,1/
16,1 / 64,1 /256}作为混合物。
2. 固定专用数据，缩放通用数据:我们使用
GSM8K RFT和Code Alpaca的完整训练集，采样
不同比例的ShareGPT作为混合物。
3. 固定1/64一般数据，缩放专用数据:受LIMA
设置(Zhou等人，2023a)的激励，我们使用1/64
ShareGPT集(约1500个示例)，并将不同比例的
GSM8K RFT和Code Alpaca作为混合物进行采
样。
结果与分析。Q1:模型的性能是否会随着通用数
据和专用数据的不同比例而变化?如图4的前三
张图所示，我们对专业能力和一般能力之间的
数据比率(k)进行了消融研究。要被注意的比率
通过数据量进行归一化，例如，k = 1意味着专业
使用数据量=
一般使用数据量
专门化所有数据量一般所有数据量。我们使用固定的专用
数据集(直接混合100%的代码和数学数据用于训
练)和固定的通用数据集(100%的通用数据用于
训练)作为基线，并观察:
(1)当一般数据的比例从1/256增加到1/1时，
固定的专业数据，缩放一般数据设置在数学推
理方面表现出与固定的专业能力设置相似的性
能。这表明数据比率k的变化对数学能力的影响
最小。我们考虑数学能力和一般能力不冲突的
原因，因为它们在语义空间上差别太大。然而，
当考虑固定的专用数据HumanEval时，与基线相
比，缩放一般数据设置会显示出明显的波动。
我们将此归因于ShareGPT中包含了一定比例的
代码数据。由于数据格式和分布的差异，当数
据比例k增加时，相似数据特征的存在加剧了能
力之间的性能冲突。对不同能力分布的进一步
分析将在4.1节中讨论。
(2)随着专门化数据的比例从1/256增加到1/
1，固定通用数据的设置，缩放专门化数据与
基线相比没有显着的性能变化。这与我们的假
设相呼应，即当不同sftability之间的任务格式和
数据分布存在显著
差异时，数据比例的影响是最小的。然而，当
存在一定程度的相似性时，数据比率会导致明
显的性能波动。
Q2:在通用数据资源极其有限的情况下，专
门化数据的比例是否会对模型的性能产生影响?
我们进一步探讨了在模型刚刚获得一定水平的
通用人类对齐能力(k = 1/64)时，不同比例的专
业化数据对模型的影响。图4的底部3张图展示
了两种设置之间的比较实验。我们观察到，无
论通用能力的数据量是丰富的(k = 1)还是稀缺
的(k = 1/64)， MT-Bench上的性能都不会随着专
业数据比例的变化而出现明显的波动。此外，
在数学推理中，1/64通用数据设置表现出与完
整通用数据设置几乎相同的缩放趋势。然而，
对于编码能力而言，在相同的编码数据量和不
同的比例下，两种设置下的编码能力是不同的。
我们仍然认为原因是代码数据部分与ShareGPT
数据相关，导致性能差异，并在讨论4.2中提供
了分析。
3.5 rq4。表现差异vs.训练策略
我们可以将这些SFT数据集输入到具有不同训
练策略的模型中。在本节中，我们将对这些设
置进行实验，并研究它们如何影响每种能力的
表现。
实验设计:首先，我们介绍三种朴素训练策略，
如下所示:
1. 多任务学习:我们直接混合不同的SFT数据
源D =∪1≤i≤k Di并应用SFT。如果我们把每
个数据源看作一个不同的任务，这就可以看作
是多任务学习。
2. 顺序训练:我们依次对每个数据集应用SFT。
具体来说，我们对编码、数学推理和一般能力
数据集进行了顺序训练。由于一般能力是人类
对齐最重要的能力，我们将ShareGPT作为我们
的最后一个数据集。
3. 混合顺序训练:我们首先在专门的数据集(代
码、数学)上应用多任务学习，然后在一般能力
数据集上应用SFT。这三种方法如图1所示。
结果与分析:表1给出了不同训练策略下的表现
数学推理、代码生成和一般人类对齐能力的
表现。多任务学习保留了这些策略中的专业
能力，而对其中的一般能力伤害最大。顺序
训练和混合顺序训练保留了一般能力，而失
去了太多的专业能力。观察到的结果与预期
一致，因为在最后的微调阶段，混合顺序训
练策略不受专门化数据的影响，从而有效地
保留了其泛化能力。然而，多阶段训练的一
个固有缺点是会发生先验知识的灾难性遗忘，
这促使我们进一步探索能够在最大限度地保
留一般能力的同时减轻专业能力的灾难性遗
忘的方法。
4. 双阶段混合微调(Dual-stage Mixed Fine-
tuning, DMT):基于我们从RQ1到RQ4的观察，
我们提出了一种新的训练策略，可以减少多
任务学习中的能力冲突，缓解顺序训练中的
灾难性遗忘问题。从RQ1来看，模型需要大
量的数据来激活专门的能力。从RQ2来看，
使用大量的专业数据和通用数据进行多任务
学习将损害每一种能力。从RQ3开始，少量
的专门化数据不会影响通用能力的表现。从
RQ4开始，(混合)顺序训练忘记了专业能力。
所以模型需要学习大量的专门化数据，在学
习通用能力的时候不应该忘记它们。自然的
选择是，先学习全部的专门化数据，在顺序
训练的最后阶段，在通用数据中加入少量的
专门化数据，防止遗忘。如图1所示，我们首
先在专门化数据集上应用SFT，这与混合序
列训练策略的第一阶段相同。对于第二阶段，
我们使用混合数据源执行SFT，该数据源由
一般数据和代码和数学数据的不同比例k(1,1 /
2, 1/4, 1/ 8,1 / 16,1 /32)的组合组成。在第二阶
段添加代码和数学数据有助于模型回忆起专
门的能力。DMT (k = 1/256)的结果如表1所示，
在讨论中可以找到比例k的详细标度分析。
模型精度与DMT策略。在表1中，与混
合顺序训练策略相比，采用DMT (k = 1/256)
策略的LLaMA-7B在数学推理(32.6至41.92)和
代码生成(15.24至17.68)方面表现出
显著改善。这表明在最后一个微调阶段混合
专业能力数据对灾难性遗忘具有显着的缓解
作用。令人惊讶的是，DMT (k = 1/256)甚至
在MT-Bench上表现出轻微的改进，进一步突
出了它在有效保留一般能力的同时减轻灾难
性遗忘的能力。
对于13B和33B模型，DMT (k = 1/256)表
明，与混合顺序训练策略相比，在数学推理
(13B: 40.48至46.47 / 33B: 44.24至56.36)和代
码生成(13B: 18.3至19.5 / 33B: 24.4至25.5)方
面，灾难-营养遗忘明显减轻。此外，它显著
地保留了它的一般能力(13B: 5.93到6.03 /
33B: 6.43到6.69)。因此，这些结果作为DMT
在维持一般能力的同时减轻灾难性遗忘的功
效的额外验证。
4 讨论
4.1 不同SFT能力的可视化
在前面的数据构成分析中，我们观察到当不
同的数据源直接混合时，性能会显著下降。
在本节中，我们的目的是探索不同数据源之
间语义表示分布的潜在相互影响。具体来说，
我们从 CodeAl-paca、GSM8k RFT 和
ShareGPT数据集中随机抽取100个查询，并提
取位于模型中间层(第15层)的隐藏层表示。随
后，我们采用了t-SNE工具包(Van der Maaten
和Hinton, 2008)来可视化这三种类型能力的表
示。图5中的结果说明了原始LLaMA-13b和具
有DMT (k=1/256)的LLaMA-13b的语义表示中
存在明显的崩溃现象。虽然这两个模型在数
学数据表示中都表现出一定程度的分离，但
代码表示和一般样本之间仍然存在一定程度
的重叠。在附录G中，我们进一步讨论了
LLaMA 7B和13B不同层语义空间的可视化。
3To verify the effectiveness of DMT strategy on relatively OOD
benchmarks, we further evaluate it on MBPP and MATH in
Appendix F.
表1:LLaMA-7B、13B、33B在三个基准上不同训练策略下的结果。跨不同策略的前两项结果用粗体和下划线标注。
图5:左2图为DMT策略下LLaMA-13B和LLaMA-13B的t-SNE图。右图为不同k值下LLaMA-7B和13B与DMT的性能缩放。
4.2 ShareGPT中专门化域的消融
在RQ2中，我们观察到与单一数据源相比，
使用混合数据源导致在低资源条件下的能力
提高，但在高资源条件下的能力下降。然而，
ShareGPT中编码和数学样本的存在带来了不
确定性，即低资源下的性能增益是否完全归
因于这些特定的编码和数学数据或一般数据
集中的其他或正交样本(例如，翻译或提取)。
因此，本节的目的是研究在删除ShareGPT中
的代码和数学示例后，第3.3节得出的结论是
否仍然有效。
实验设计:我们使用开放集标记器InsTag
(Lu et al.， 2023)在ShareGPT中对样本进行注
释。为了过滤掉与编码和数学能力相关的数
据，我们进行正则表达式匹配，以消除标签
包含关键字“code”或“math”的实例。最
后，我们获得了一个没有任何代码或数学相
关信息的ShareGPT数据集(从86K减少到63K)。
根据3.3节中的设置，我们从GSM8K、Code
Alpaca和修改后的ShareGPT数据集(不含代码
数学)中采样不同比
例的训练数据(1,1 /4、1/16、1/64、1/256)。
这些样本直接按照相应的比例进行混合。随
后，利用这个混合数据集对LLaMA模型进行
微调。
结果与分析。图6显示了我们的实验结果。
从ShareGPT中删除代码和数学不仅在一定程
度上缓解了高资源条件下不同能力之间的性
能冲突，而且还在低资源设置中保持了稳定
的收益。我们认为，这些发现背后的潜在原
因在于ShareGPT、CodeAl-paca和GSM8K
RFT数据集之间代码和数学数据分布的差异。
这种分布差距在SFT阶段引入了额外的噪声，
而它的去除使模型能够更好地泛化编码和数
学能力。此外，在低资源场景下，这种现象
表明，ShareGPT中的代码和数学样本并不是
促进性能改进的关键因素，而是数据的多样
性和可变性(Longpre et al.， 2023)。总之，
ShareGPT中代码数学数据的存在并不是影响
第3.3节中确定的性能提升的关键因素，这突
出了我们结论的概括性。
图6:从ShareGPT中删除代码和数学相关示例后的缩放曲线
4.3 DMT中的专用数据量
我们研究了k的不同值如何影响模型的性能和
结果，如图5所示。当我们将k从0调整到1/256
(k = 0等于混合顺序训练)时，SFT模型在专业
能力和一般人类对齐能力方面都有显着提高。
相反，当k从1/4增加到1时，模型显示出一般
能力的下降。我们认为这与RQ2中的发现是一
致的，结论是高资源设置导致冲突，而低资源
设置导致混合资源的收益。此外，当k从1/256
增加到1/4时，我们观察到一般能力和专业能
力之间呈线性反比趋势，特别是一般能力的增
加与专业能力的减少相吻合。这表明，k需要
根据具体要求进行调整，以实现多种能力之间
的平衡。
5 结论
我们探讨了SFT阶段的数据组成，重点是数学
推理、代码生成和一般的人类对齐能力。我们
制定了四个研究问题来指导我们的调查，并分
析了不同能力和因素(例如数据量、数据比例、
模型参数和训练策略)之间的缩放趋势。我们
的研究结果揭示了不同能力之间不同的缩放模
式，当使用相同数量的数据进行训练时，更大
的模型显示出更好的性能。此外，在SFT阶段
混合数据源可以提高低资源场景下的性能，但
在高资源场景下会降低性能。有趣的是，随着
模型参数大小的增加，低资源增益的现象变得
更加突出。此外，我们的观察表明，数据量直
接影响性能冲突，而数据比例的影响在我们的
实验设置中是不显著的。最后，在SFT策略方
面，我们证明了我们提出的DMT策略有效地缓
解了性能冲突，为激活多种
能力提供了一个有希望的解决方案。
局限性
由于我们使用的是大型语言模型LLaMA-33B，
训练和推理都需要大量的计算资源和时间，这
可能会限制其适用性。本文使用的数据集都是
开源的，因此不存在伦理或道德问题;然而，
不适当的提示和嘈杂的训练语料库可能会导致
法学硕士的隐私和偏见问题。此外，评估基准
MT-Bench依赖于GPT-4进行评分，这可能会导
致结果存在一些可变性，并且这些可能并不总
是与人类的判断标准完全一致。在本文中，我
们主要关注法学硕士社区非常感兴趣的三种
SFT能力，包括数学推理、代码生成和一般的
人类对齐能力。为了验证我们结论的普遍性，
我们在附录中进一步探讨了另外三种SFT能力。
然而，在法学硕士社区中，仍有许多其他SFT
能力(如创造性生成)存在数据构成问题，有待
研究人员探索，这也是我们未来研究的重点。
参考文献
Rohan Anil, Andrew M Dai, Orhan Firat, Melvin
John-son, Dmitry Lepikhin, Alexandre Passos,
Siamak Shakeri, Emanuel Taropa, Paige Bailey,
Zhifeng Chen, et al. 2023. Palm 2 technical
report. arXiv preprint arXiv:2305.10403.
Jacob Austin, Augustus Odena, Maxwell Nye,
Maarten Bosma, Henryk Michalewski, David
Dohan, Ellen Jiang, Carrie Cai, Michael Terry,
Quoc Le, et al. 2021. Program synthesis with
large language models. arXiv preprint arXiv:
2108.07732.
Loubna Ben Allal, Niklas Muennighoff, Lo-gesh
Kumar Umapathi, Ben Lipkin, and Leandro von
Werra. 2022. A framework for the evaluation of
code generation mod-els. https://github. com/
bigcode-project/bigcode-evaluation-harness.
Tom B. Brown, Benjamin Mann, Nick Ryder,
Melanie Subbiah,
Jared Kaplan, Prafulla
Dhariwal, Arvind Neelakantan, Pranav Shyam,
Girish Sastry, Amanda Askell, Sandhini
Agarwal, Ariel Herbert-Voss, Gretchen Krueger,
Tom Henighan, Rewon Child, Aditya Ramesh,
Daniel M. Ziegler, Jeffrey Wu, Clemens Winter,
Christopher Hesse, Mark Chen, Eric Sigler,
Mateusz Litwin, Scott Gray, Benjamin Chess,
Jack Clark, Christopher Berner, Sam McCandlish,
Alec Radford,
Ilya Sutskever, and Dario
Amodei. 2020. Language models are few-shot
learners.
Mauro Cettolo, Jan Niehues, Sebastian Stüker, Luisa
Bentivogli, and Marcello Federico. 2014. Report
on the 11th IWSLT evaluation campaign. In
Proceed-ings of the 11th International Workshop
on Spoken Language Translation: Evaluation
Campaign, pages 2–17, Lake Tahoe, California.
Sahil Chaudhary. 2023. Code alpaca: An instruction-
following llama model for code generation.
https: //github.com/sahil280114/codealpaca.
Mark Chen, Jerry Tworek, Heewoo Jun, Qiming
Yuan, Henrique Ponde de Oliveira Pinto, Jared
Ka-plan, Harri Edwards, Yuri Burda, Nicholas
Joseph, Greg Brockman, Alex Ray, Raul Puri,
Gretchen Krueger, Michael Petrov, Heidy
Khlaaf, Girish Sas-try, Pamela Mishkin, Brooke
Chan, Scott Gray, Nick Ryder, Mikhail Pavlov,
Alethea Power, Lukasz Kaiser, Mohammad
Bavarian, Clemens Winter, Philippe Tillet,
Felipe Petroski Such, Dave Cum-mings,
Matthias Plappert, Fotios Chantzis, Eliza-beth
Barnes, Ariel Herbert-Voss, William Hebgen
Guss, Alex Nichol, Alex Paino, Nikolas Tezak,
Jie Tang, Igor Babuschkin, Suchir Balaji,
Shantanu Jain, William Saunders, Christopher
Hesse, Andrew N. Carr, Jan Leike, Josh Achiam,
Vedant Misra, Evan Morikawa, Alec Radford,
Matthew Knight, Miles Brundage, Mira Murati,
Katie Mayer, Peter Welinder, Bob McGrew,
Dario Amodei, Sam McCandlish, Ilya Sutskever,
and Wojciech Zaremba. 2021. Evaluating large
language models trained on code.
Zhaorun Chen, Zhuokai Zhao, Zhihong Zhu, Ruiqi
Zhang, Xiang Li, Bhiksha Raj, and Huaxiu Yao.
2024. Autoprm: Automating procedural
supervision for multi-step reasoning via
controllable question de-composition.
In
Proceedings of the 2024 Conference of the North
American Chapter of the Association for
Computational Linguistics: Human Language
Technologies.
Xuxin Cheng, Bowen Cao, Qichen Ye, Zhihong Zhu,
Hongxiang Li, and Yuexian Zou. 2023a. Ml-
lmcl: Mutual
learning and large-margin
contrastive learn-ing for
improving asr
robustness in spoken language understanding. In
Findings of the Association for Computational
Linguistics: ACL 2023, pages 6492– 6505.
Xuxin Cheng, Qianqian Dong, Fengpeng Yue, Tom
Ko, Mingxuan Wang, and Yuexian Zou. 2023b.
M 3 st: Mix at three levels for speech translation.
In ICASSP 2023-2023 IEEE International
Conference on Acous-tics, Speech and Signal
Processing (ICASSP), pages 1–5. IEEE.
Xuxin Cheng, Zhihong Zhu, Bowen Cao, Qichen Ye,
and Yuexian Zou. 2023c. Mrrl: Modifying the
reference via reinforcement learning for non-
autoregressive joint multiple intent detection and
slot
filling. In The 2023 Conference on Empirical Meth-
ods in Natural Language Processing, pages
10495– 10505.
Xuxin Cheng, Zhihong Zhu, Hongxiang Li, Yaowei
Li, Xianwei Zhuang, and Yuexian Zou. 2024. To-
wards multi-intent spoken language understandin
g via hierarchical attention and optimal transport.
In Proceedings of the AAAI Conference on
Artificial Intelligence, volume 38, pages 17844–
17852.
Xuxin Cheng, Zhihong Zhu, Wanshi Xu, Yaowei Li,
Hongxiang Li, and Yuexian Zou. 2023d. Acceler-
ating multiple intent detection and slot filling via
targeted knowledge distillation. In The 2023 Con-
ference on Empirical Methods in Natural
Language Processing.
Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng,
Zhanghao Wu, Hao Zhang, Lianmin Zheng,
Siyuan Zhuang, Yonghao Zhuang, Joseph E.
Gonzalez, Ion Stoica, and Eric P. Xing. 2023.
Vicuna: An open-source chatbot impressing gpt-
4 with 90%* chatgpt quality.
Alexandra Chronopoulou, Christos Baziotis, and
Alexandros Potamianos. 2019. An embarrassingl
y simple approach for transfer learning from
pretrained language models. arXiv preprint arXiv:
1902.10547.
Hyung Won Chung, Le Hou, Shayne Longpre, Barret
Zoph, Yi Tay, William Fedus, Yunxuan Li,
Xuezhi Wang, Mostafa Dehghani, Siddhartha
Brahma, Al-bert Webson, Shixiang Shane Gu,
Zhuyun Dai, Mirac Suzgun, Xinyun Chen,
Aakanksha Chowdh-ery, Alex Castro-Ros, Marie
Pellat, Kevin Robinson, Dasha Valter, Sharan
Narang, Gaurav Mishra, Adams Yu, Vincent
Zhao, Yanping Huang, Andrew Dai, Hongkun
Yu, Slav Petrov, Ed H. Chi, Jeff Dean, Ja-cob
Devlin, Adam Roberts, Denny Zhou, Quoc V.
Le, and Jason Wei. 2022a. Scaling instruction-
finetuned language models.
Hyung Won Chung, Le Hou, Shayne Longpre, Barret
Zoph, Yi Tay, William Fedus, Yunxuan Li,
Xuezhi Wang, Mostafa Dehghani, Siddhartha
Brahma, Al-bert Webson, Shixiang Shane Gu,
Zhuyun Dai, Mirac Suzgun, Xinyun Chen,
Aakanksha Chowdh-ery, Alex Castro-Ros, Marie
Pellat, Kevin Robinson, Dasha Valter, Sharan
Narang, Gaurav Mishra, Adams Yu, Vincent
Zhao, Yanping Huang, Andrew Dai, Hongkun
Yu, Slav Petrov, Ed H. Chi, Jeff Dean, Ja-cob
Devlin, Adam Roberts, Denny Zhou, Quoc V.
Le, and Jason Wei. 2022b. Scaling instruction-
finetuned language models.
Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian,
Mark Chen, Heewoo Jun, Lukasz Kaiser,
Matthias Plappert, Jerry Tworek, Jacob Hilton,
Reiichiro Nakano, et al. 2021. Training verifiers
to solve math word problems. arXiv preprint
arXiv:2110.14168.
Matthias De Lange, Rahaf Aljundi, Marc Masana,
Sarah Parisot, Xu Jia, Aleš Leonardis, Gregory
Slabaugh, and Tinne Tuytelaars. 2022. A
continual learning sur-vey: Defying forgetting in
classification tasks. IEEE
Transactions on Pattern Analysis and Machine Intel-
ligence, 44(7):3366–3385.
Guanting Dong, Tingfeng Hui, Zhuoma GongQue,
Jinxu Zhao, Daichi Guo, Gang Zhao, Keqing He,
and Weiran Xu. 2023a. Demonsf: A multi-task
demonstration-based generative framework for
noisy slot filling task.
Guanting Dong, Jinxu Zhao, Tingfeng Hui, Daichi
Guo, Wenlong Wan, Boqi Feng, Yueyan Qiu,
Zhuoma Gongque, Keqing He, Zechen Wang, et
al. 2023b. Revisit input perturbation problems
for llms: A uni-fied robustness evaluation
framework for noisy slot filling task. arXiv
preprint arXiv:2310.06504.
Dayuan Fu, Jianzhao Huang, Siyuan Lu, Guanting
Dong, Yejie Wang, Keqing He, and Weiran Xu.
2024. Preact: Predicting future in react enhances
agent’s planning ability.
Leo Gao, John Schulman, and Jacob Hilton. 2022.
Scal-ing laws for reward model overoptimizatio
n.
Zhibin Gou, Zhihong Shao, Yeyun Gong, Yelong
Shen, Yujiu Yang, Minlie Huang, Nan Duan, and
Weizhu Chen. 2024. Tora: A tool-integrated
reasoning agent for mathematical problem
solving.
Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul
Arora, Steven Basart, Eric Tang, Dawn Song,
and Ja-cob Steinhardt. 2021. Measuring
mathematical prob-lem solving with the math
dataset. arXiv preprint arXiv:2103.03874.
Jordan Hoffmann, Sebastian Borgeaud, Arthur
Mensch, Elena Buchatskaya, Trevor Cai, Eliza
Rutherford, Diego de Las Casas, Lisa Anne
Hendricks, Johannes Welbl, Aidan Clark, Tom
Hennigan, Eric Noland, Katie Millican, George
van den Driessche, Bogdan Damoc, Aurelia Guy,
Simon Osindero, Karen Si-monyan, Erich Elsen,
Jack W. Rae, Oriol Vinyals, and Laurent Sifre.
2022. Training compute-optimal large language
models.
Jakub Hoscilowicz, Pawel Pawlowski, Marcin
Skorupa, Marcin Sowa´nski, and Artur Janicki.
2024. Large language models for expansion of
spoken language understanding systems to new
languages.
Yupeng Hou, Junjie Zhang, Zihan Lin, Hongyu Lu,
Ruobing Xie, Julian McAuley, and Wayne Xin
Zhao. 2024. Large language models are zero-
shot rankers for recommender systems.
In
European Conference on Information Retrieval,
pages 364–381. Springer.
Jie Huang and Kevin Chen-Chuan Chang. 2023. To-
wards reasoning in large language models: A
survey. In Findings of the Association for
Computational Linguistics: ACL 2023, pages
1049–1065, Toronto, Canada. Association for
Computational Linguistics.
Jared Kaplan, Sam McCandlish, Tom Henighan, Tom
B Brown, Benjamin Chess, Rewon Child, Scott
Gray, Alec Radford, Jeffrey Wu, and Dario
Amodei. 2020. Scaling laws for neural language
models. arXiv preprint arXiv:2001.08361.
Shanglin Lei, Guanting Dong, Xiaoping Wang,
Keheng Wang, and Sirui Wang. 2023.
Instructerc: Reforming emotion recognition in
conversation with a retrieval multi-task llms
framework.
Chengpeng Li, Zheng Yuan, Hongyi Yuan, Guanting
Dong, Keming Lu, Jiancan Wu, Chuanqi Tan,
Xiang Wang, and Chang Zhou. 2023. Query and
response augmentation cannot help out-of-
domain math rea-soning generalization.
Xiaoxi Li, Jiajie Jin, Yujia Zhou, Yuyao Zhang,
Peitian Zhang, Yutao Zhu, and Zhicheng Dou.
2024. From matching to generation: A survey on
generative in-formation retrieval.
Xiaobo Liang, Lijun Wu, Juntao Li, Yue Wang, Qi
Meng, Tao Qin, Wei Chen, Min Zhang, and Tie-
Yan Liu. 2021. R-drop: Regularized dropout for
neural networks.
Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri
Edwards, Bowen Baker, Teddy Lee, Jan Leike,
John Schulman, Ilya Sutskever, and Karl Cobbe.
2023. Let’s verify step by step. arXiv preprint
arXiv:2305.20050.
Bo Liu, Liming Zhan, Zexin Lu, Yujie Feng, Lei Xue,
and Xiao-Ming Wu. 2024a. How good are llms
at out-of-distribution detection?
Wei Liu, Weihao Zeng, Keqing He, Yong Jiang, and
Junxian He. 2024b. What makes good data for
align-ment? a comprehensive study of automatic
data se-lection in instruction tuning.
Zheng Liu, Yujia Zhou, Yutao Zhu, Jianxun Lian,
Chaozhuo Li, Zhicheng Dou, Defu Lian, and
Jian-Yun Nie. 2024c. Information retrieval meets
large language models.
In Companion
Proceedings of the ACM on Web Conference
2024, WWW ’24, page 1586–1589, New York,
NY, USA. Association for Computing
Machinery.
Shayne Longpre, Le Hou, Tu Vu, Albert Webson,
Hyung Won Chung, Yi Tay, Denny Zhou, Quoc
V Le, Barret Zoph, Jason Wei, et al. 2023. The
flan collection: Designing data and methods for
effective instruction tuning. arXiv preprint arXiv:
2301.13688.
Keming Lu, Hongyi Yuan, Zheng Yuan, Runji Lin,
Jun-yang Lin, Chuanqi Tan, and Chang Zhou.
2023. # instag: Instruction tagging for diversity
and complex-ity analysis. arXiv preprint arXiv:
2308.07074.
Yaojie Lu, Qing Liu, Dai Dai, Xinyan Xiao, Hongyu
Lin, Xianpei Han, Le Sun, and Hua Wu. 2022.
Uni-fied structure generation for universal
information extraction. arXiv preprint arXiv:
2203.12277.
Haoran Luo, Haihong E, Zichen Tang, Shiyao Peng,
Yikai Guo, Wentai Zhang, Chenghao Ma,
Guanting Dong, Meina Song, and Wei Lin.
2023a. Chatkbqa: A generate-then-retrieve
framework for knowledge base question
answering with fine-tuned large lan-guage
models.
Ziyang Luo, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo
Geng, Wenxiang Hu, Chongyang Tao, Jing Ma,
Qing-wei Lin, and Daxin Jiang. 2023b.
Wizardcoder: Empowering code large language
models with evol-instruct. arXiv preprint arXiv:
2306.08568.
OpenAI. 2023. Gpt-4 technical report.
Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Car-
roll L. Wainwright, Pamela Mishkin, Chong
Zhang, Sandhini Agarwal, Katarina Slama, Alex
Ray, John Schulman, Jacob Hilton, Fraser Kelton,
Luke Miller, Maddie Simens, Amanda Askell,
Peter Welinder, Paul Christiano, Jan Leike, and
Ryan Lowe. 2022a. Training language models to
follow instructions with human feedback.
Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Car-
roll L. Wainwright, Pamela Mishkin, Chong
Zhang, Sandhini Agarwal, Katarina Slama, Alex
Ray, John Schulman, Jacob Hilton, Fraser Kelton,
Luke Miller, Maddie Simens, Amanda Askell,
Peter Welinder, Paul Christiano, Jan Leike, and
Ryan Lowe. 2022b. Training language models to
follow instructions with human feedback.
Jeff Rasley, Samyam Rajbhandari, Olatunji Ruwase,
and Yuxiong He. 2020. Deepspeed: System opti-
mizations enable training deep learning models
with over 100 billion parameters. In Proceedings
of the 26th ACM SIGKDD International
Conference on Knowledge Discovery & Data
Mining, KDD ’20, page 3505–3506, New York,
NY, USA. Association for Computing
Machinery.
Victor Sanh, Albert Webson, Colin Raffel, Stephen H.
Bach, Lintang Sutawika, Zaid Alyafeai, Antoine
Chaffin, Arnaud Stiegler, Teven Le Scao, Arun
Raja, Manan Dey, M Saiful Bari, Canwen Xu,
Urmish Thakker, Shanya Sharma Sharma, Eliza
Szczechla, Taewoon Kim, Gunjan Chhablani,
Nihal Nayak, De-bajyoti Datta, Jonathan Chang,
Mike Tian-Jian Jiang, Han Wang, Matteo Manica,
Sheng Shen, Zheng Xin Yong, Harshit Pandey,
Rachel Bawden, Thomas Wang, Trishala Neeraj,
Jos Rozen, Abheesht Sharma, Andrea Santilli,
Thibault Fevry, Jason Alan Fries, Ryan Teehan,
Tali Bers, Stella Biderman, Leo Gao, Thomas
Wolf, and Alexander M. Rush. 2022. Multi-task
prompted training enables zero-shot task gener-
alization.
Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li,
Weiming Lu, and Yueting Zhuang. 2023.
Hugging-gpt: Solving ai tasks with chatgpt and its
friends in hugging face.
Karan Singhal, Shekoofeh Azizi, Tao Tu, S. Sara Mah-
davi, Jason Wei, Hyung Won Chung, Nathan
Scales, Ajay Tanwani, Heather Cole-Lewis,
Stephen Pfohl, Perry Payne, Martin Seneviratne,
Paul Gamble, Chris Kelly, Nathaneal Scharli,
Aakanksha Chowdhery, Philip Mansfield, Blaise
Aguera y Arcas, Dale Web-ster, Greg S. Corrado,
Yossi Matias, Katherine Chou, Juraj Gottweis,
Nenad Tomasev, Yun Liu, Alvin Ra-jkomar,
Joelle Barral, Christopher Semturs, Alan
Karthikesalingam, and Vivek Natarajan. 2022. Large
language models encode clinical knowledge.
Xiaoshuai Song, Keqing He, Pei Wang, Guanting
Dong, Yutao Mou, Jingang Wang, Yunsen Xian,
Xunliang Cai, and Weiran Xu. 2023. Large
language models meet open-world intent
discovery and recognition: An evaluation of
chatgpt.
Xiaoshuai Song, Zhengyang Wang, Keqing He, Guant-
ing Dong, Yutao Mou, Jinxu Zhao, and Weiran
Xu. 2024. Knowledge editing on black-box large
lan-guage models.
Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann
Dubois, Xuechen Li, Carlos Guestrin, Percy
Liang, and Tatsunori B. Hashimoto. 2023.
Stanford alpaca: An instruction-following llama
model. https:// github. com/tatsu-lab/stanford_
alpaca.
Erik F. Tjong Kim Sang and Fien De Meulder. 2003.
Introduction to the CoNLL-2003 shared task:
Language-independent named entity recognition.
In Proceedings of the Seventh Conference on
Natural Language Learning at HLT-NAACL
2003, pages 142– 147.
Hugo Touvron, Thibaut Lavril, Gautier Izacard,
Xavier Martinet, Marie-Anne Lachaux, Timothée
Lacroix, Baptiste Rozière, Naman Goyal, Eric
Hambro, Faisal Azhar, Aurelien Rodriguez,
Armand Joulin, Edouard Grave, and Guillaume
Lample. 2023. Llama: Open and efficient
foundation language models.
Laurens Van der Maaten and Geoffrey Hinton. 2008.
Visualizing data using t-sne. Journal of machine
learning research, 9(11).
Guan Wang, Sijie Cheng, Xianyuan Zhan, Xiangang
Li, Sen Song, and Yang Liu. 2023a. Openchat:
Advanc-ing open-source language models with
mixed-quality data.
Pei Wang, Yejie Wang, Muxi Diao, Keqing He, Guant-
ing Dong, and Weiran Xu. 2024a. Multi-
perspective consistency enhances confidence
estimation in large language models.
Shuhe Wang, Xiaofei Sun, Xiaoya Li, Rongbin
Ouyang, Fei Wu, Tianwei Zhang, Jiwei Li, and
Guoyin Wang. 2023b. Gpt-ner: Named entity
recognition via large language models.
Yejie Wang, Keqing He, Guanting Dong, Pei Wang,
Wei-hao Zeng, Muxi Diao, Yutao Mou, Mengdi
Zhang, Jingang Wang, Xunliang Cai, and Weiran
Xu. 2024b. Dolphcoder: Echo-locating code large
language mod-els with diverse and multi-
objective instruction tun-ing.
Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack
Hessel, Tushar Khot, Khyathi Raghavi Chandu,
David Wadden, Kelsey MacMillan, Noah A
Smith, Iz Beltagy, et al. 2023c. How far can
camels go? exploring the state of instruction
tuning on open re-sources. arXiv preprint arXiv:
2306.04751.
Yizhong Wang, Yeganeh Kordi, Swaroop Mishra,
Alisa Liu, Noah A. Smith, Daniel Khashabi,
and Hannaneh Hajishirzi. 2023d. Self-instruct:
Aligning language models with self-generated
instructions.
Jason Wei, Xuezhi Wang, Dale Schuurmans,
Maarten Bosma, Fei Xia, Ed Chi, Quoc V Le,
Denny Zhou, et al. 2022. Chain-of-thought
prompting elicits rea-soning in large language
models. Advances in Neural Information
Processing Systems, 35:24824–24837.
Yuxiang Wei, Zhe Wang, Jiawei Liu, Yifeng Ding,
and Lingming Zhang. 2023. Magicoder: Source
code is all you need.
Shaohua Wu, Xudong Zhao, Tong Yu, Rongguo
Zhang, Chong Shen, Hongli Liu, Feng Li, Hong
Zhu, Jian-gang Luo, Liang Xu, et al. 2021.
Yuan 1. 0: Large-scale pre-trained language
model in zero-shot and few-shot learning. arXiv
preprint arXiv:2110.04725.
Yuxiang Wu, Guanting Dong, and Weiran Xu. 2023.
Semantic parsing by large language models for
intri-cate updating strategies of zero-shot
dialogue state tracking.
Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu
Zhao, Jiazhan Feng, Chongyang Tao, and Daxin
Jiang. 2023a. Wizardlm: Empowering large lan-
guage models to follow complex instructions.
Derong Xu, Wei Chen, Wenjun Peng, Chao Zhang,
Tong Xu, Xiangyu Zhao, Xian Wu, Yefeng
Zheng, and Enhong Chen. 2023b. Large
language models for generative information
extraction: A survey.
Runxin Xu, Fuli Luo, Zhiyuan Zhang, Chuanqi Tan,
Baobao Chang, Songfang Huang, and Fei
Huang. 2021. Raise a child in large language
model: To-wards effective and generalizable
fine-tuning.
In Pro-ceedings of the 2021
Conference on Empirical Meth-ods in Natural
Language Processing, pages 9514– 9528,
Online and Punta Cana, Dominican Republic.
Association for Computational Linguistics.
Mingfeng Xue, Dayiheng Liu, Kexin Yang,
Guanting Dong, Wenqiang Lei, Zheng Yuan,
Chang Zhou, and Jingren Zhou. 2023.
Occuquest: Mitigating occupa-tional bias for
inclusive large language models.
Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran,
Thomas L. Griffiths, Yuan Cao, and Karthik
Narasimhan. 2023a. Tree of thoughts:
Deliberate problem solving with large language
models.
Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak
Shafran, Karthik Narasimhan, and Yuan Cao.
2023b. React: Synergizing reasoning and acting
in language models.
Wen-tau Yih, Matthew Richardson, Chris Meek,
Ming-Wei Chang, and Jina Suh. 2016. The
value of se-mantic parse labeling for knowledge
base question answering. In Proceedings of the
54th Annual Meet-ing of the Association for
Computational Linguistics (Volume 2: Short
Papers), pages 201–206, Berlin,
Germany. Association for Computational Linguis-
tics.
Shangjian Yin, Peijie Huang, Yuhong Xu, Haojing
Huang, and Jiatian Chen. 2024. Do large
language model understand multi-intent spoken
language ?
Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu,
Zhengying Liu, Yu Zhang, James T. Kwok,
Zhenguo Li, Adrian Weller, and Weiyang Liu.
2024. Meta-math: Bootstrap your own
mathematical questions for large language
models.
Hongyi Yuan, Zheng Yuan, Chuanqi Tan, Fei
Huang, and Songfang Huang. 2023a. HyPe:
Better pre-trained language model fine-tuning
with hidden rep-resentation perturbation. In
Proceedings of the 61st Annual Meeting of the
Association for Computational Linguistics
(Volume 1: Long Papers), pages 3246– 3264,
Toronto, Canada. Association for Computa-
tional Linguistics.
Lifan Yuan, Yangyi Chen, Ganqu Cui, Hongcheng
Gao, Fangyuan Zou, Xingyi Cheng, Heng Ji,
Zhiyuan Liu, and Maosong Sun. 2024.
Revisiting out-of-distribution robustness in nlp:
Benchmarks, analysis, and llms evaluations.
Advances in Neural Informa-tion Processing
Systems, 36.
Zheng Yuan, Hongyi Yuan, Chengpeng Li,
Guanting Dong, Chuanqi Tan, and Chang Zhou.
2023b. Scal-ing relationship on learning
mathematical reasoning with large language
models.
Zheng Yuan, Hongyi Yuan, Chuanqi Tan, Wei
Wang, Songfang Huang, and Fei Huang. 2023c.
Rrhf: Rank responses to align language models
with human feed-back without tears.
Xiang Yue, Xingwei Qu, Ge Zhang, Yao Fu, Wen-
hao Huang, Huan Sun, Yu Su, and Wenhu
Chen. 2023. Mammoth: Building math
generalist models through hybrid instruction
tuning. arXiv preprint arXiv:2309.05653.
Xiang Yue, Tuney Zheng, Ge Zhang, and Wenhu
Chen. 2024. Mammoth2: Scaling instructions
from the web.
Shengyu Zhang, Linfeng Dong, Xiaoya Li, Sen
Zhang, Xiaofei Sun, Shuhe Wang, Jiwei Li,
Runyi Hu, Tian-wei Zhang, Fei Wu, and
Guoyin Wang. 2024a. In-struction tuning for
large language models: A survey.
Zhen Zhang, Yuhua Zhao, Hang Gao, and Mengting
Hu. 2024b. Linkner: Linking local named entity
recognition models to large language models
using uncertainty.
Gang Zhao, Xiaocheng Gong, Xinjie Yang, Guant-
ing Dong, Shudong Lu, and Si Li. 2023.
Demosg: Demonstration-enhanced schema-
guided generation for low-resource event
extraction.
Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan
Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin,
Zhuohan Li, Dacheng Li, Eric. P Xing, Hao
Zhang, Joseph E. Gonzalez, and Ion Stoica. 2023.
Judging llm-as-a-judge with mt-bench and
chatbot arena.
Chunting Zhou, Pengfei Liu, Puxin Xu, Srini Iyer, Jiao
Sun, Yuning Mao, Xuezhe Ma, Avia Efrat, Ping
Yu, Lili Yu, et al. 2023a. Lima: Less is more for
align-ment. arXiv preprint arXiv:2305.11206.
Jeffrey Zhou, Tianjian Lu, Swaroop Mishra,
Siddhartha Brahma, Sujoy Basu, Yi Luan, Denny
Zhou, and Le Hou. 2023b. Instruction-following
evaluation for large language models.
Sizhe Zhou, Yu Meng, Bowen Jin, and Jiawei Han.
2024. Grasping the essentials: Tailoring large lan-
guage models for zero-shot relation extraction.
arXiv preprint arXiv:2402.11142.
Yutao Zhu, Huaying Yuan, Shuting Wang, Jiongnan
Liu, Wenhan Liu, Chenlong Deng, Haonan Chen,
Zhicheng Dou, and Ji-Rong Wen. 2024. Large lan-
guage models for information retrieval: A survey.
A SFT数据集
我们从以下SFT数据集中研究了SFT阶段的
数学推理、编码和一般能力的数据组成问
题。
•Code Alpaca (Chaudhary, 2023)旨在构
建和共享用于代码生成的指令遵循
LLaMA模型。它完全基于斯坦福羊驼，
包含用于微调模型的20K数据。Code
Alpaca数据集已经开源。
•GSM8K RFT (Yuan et al.， 2023b)是在
原始GSM8K数据集(Cobbe等人，2021)
的基础上，通过拒绝抽样整合多条推
理路径增强的数学数据集。它在训练
集中包含7.5K个问题和110K个响应。
GSM8k RFT数据集已经开源5。
•ShareGPT指的是Vicuna使用的多回合
聊天历史 (Chiang et al.， 2023)。
ShareGPT包括来自ChatGPT和其他聊
天机器人的86K人工查询和响应。
GSM8k RFT数据集已经开源。
下表2给出了三个数据集在不同子集比例(k)下
的统计数据。
表2:三个数据集在不同子集占比(k)下的数据统计。
B评价指标
我们使用以下指标来度量对齐的大型语言
模型。
4https://github.com/sahil280114/codealpaca
5https://github.com/OFA-Sys/gsm8k-ScRel
6Exact dataset of ShareGPT (https://sharegpt. com/) has not been
released. We instead use a repro-duced version from https://
huggingface. co/datasets/anon8231489123/ShareGPT_Vicuna_
unfiltered cleaned raw dataset, and follow Vicuna preprocess.
•HumanEval (Chen等人，2021)由164个原始
编程问题组成，每个问题平均分配9.6个测
试用例。为了确保对llm合成代码的功能正
确性进行彻底的评估，HumanEval+显著地
扩展了测试用例的数量，平均每个问题有
774.8个测试用例。我们使用与(Chen等人，
2021)相同的方法来获得贪婪解码下Pass@
k的无偏估计。为了促进我们结果的可重
复性，我们使用开源github存储库BigCode
(Ben Allal等人，2022)来评估本文中的所
有HumanEval分数7。
•GSM8K (Cobbe等人，2021)是一个数学词
问题数据集，用于衡量大语言模型的数学
推理能力。我们使用默认的测试集来测量
模型。我们根据贪婪解码精度(maj@1)来
计算分数。在本文中，我们使用开源githu
b存储库GSM8k - screl 8来评估所有GSM8k
分数。
•MT-Bench (Zheng et al.， 2023)是一个重要
的基准，有助于在不同背景下评估和推进
聊天机器人模型和法学硕士。MT-Bench9
使用针对处理对话量身定制的综合问题评
估法学硕士的多回合对话。它提供了一套
全面的问题，专门用于评估模型处理多回
合对话的能力。
我们还在附录F中补充了更多的基准评估结
果，以验证我们结论的泛化性:
•MATH (Hendrycks et al.， 2021)是一个具
有挑战性的高中数学问题的数据集。问题
被分为以下几类 :Prealgebra, Algebra,
Number Theory, Counting and Probability,
Geometry, intermediate -diate Algebra和
Precalculus。MATH的问题比GSM8K更难，
也更多样化。在本文中，我们使用开源
github存储库GSM8k - screl来评估所有这些
MATH成绩。我们使用来自(Lightman et
al.， 2023)的500个测试问题作为域外
数学基准。
•MBPP (Austin et al.， 2021)由大约1000个
众包Python编程问题组成，旨在由入门级
程序员解决，涵盖编程基础，标准库功能
等。每个问题由任务描述、代码解决方案
和3个自动化测试用例组成。为了促进结
果的可重复性，我们使用了开源的github
存储库BigCode (Ben Allal等人，2022)来评
估本文中的所有MBPP分数。
C实现细节
我们在NVIDIA A100 gpu上以3个epoch和128个
批处理大小微调所有SFT数据集。在微调期间，
7B和13B型号使用8个gpu, 33B型号使用16个gpu。
我们使用峰值学习率为2e-5，预热时学习率为
3%。我们在最终epoch上评估结果。我们使用
贪婪解码来计算Pass@1和maj@1。由于MT-
bench的分数会波动，我们进行了三次实验，取
平均值。
所有实验都是使用FastChat框架的默认模
板(Zheng et al.， 2023)进行的，如下图所示:
提示模板
好奇的用户和人工智能助手之间的聊天。
助理会对用户的问题给出有用的、详细
的、礼貌的回答。USER: {Query}
ASSISTANT:
为了方便我们的结果的复制，我们实验中
使用的所有数据集和评估基准都是开源的，并
指出了它们的详细来源。在盲审过程结束后，
我们也会将我们的代码开源。
D估计SFT的FLOPs
培训FLOPs。我们在这里主要遵循(卡普兰等人，
2020)的注释。
对于SFT数据集 (GSM8K, CodeAlpaca,
7https://github. com/bigcode-project/bigcode-
evaluation-harness
8
https://github.com/OFA-Sys/gsm8k-ScRel
9https://huggingface.co/spaces/lmsys/mt-bench
ShareGPT)中每个长度为nctx的输入样本，我们
可以将其分成两部分:
图7:LLaMA-7B在WebQSP, CoNLL 2003, IWSLT14(de-en)， IWSLT14(de-en)中的缩放曲线。
1. 个体域:我们分别使用从WebQSP、CoNLL
2003和IWSLT14获得的训练集的{1、1/2、1/4、
1/8}比例10对不同规模的LLaMA进行SFT。这使
我们能够使用不同的数据大小和模型大小来评
估每种能力。
2. 混合域:我们从WebQSP、CoNLL 2003和
IWSLT14中采样{1,1 /2,1/4,1/8}个数量的训练数
据，并按照相应的比例直接混合。通过这种方
式，我们构建了不同能力域的固定比例比例的
数据集，同时改变了总数据量。然后使用这些
数据集对LLaMA模型进行微调。
表3:SFT所需的FLOPs和GPU小时统计。对于33B，我们使
用DeepSpeed ZeRO3 (Rasley et al.， 2020)进行分布式训练。
所有GPU小时数均基于NVIDIA A100 80GB GPU。注意，
我们在实验中使用非嵌入参数来计算FLOPs。
分析。如图7和表4所示，我们有以下观察
结果。
对于单个域，模型在语言理解(NER)任务
其中nQ, nR分别表示问题的长度和生成的
答案。N,Ns表示非嵌入参数和样本数量。
因此，我们在表3中估计了SFT FLOPs (卡
普兰等人，2020)和GPU次数。
更多SFT能力的验证实验
为了验证我们结论的泛化性，我们选择了具有
代表性的数据集来评估大型模型在不同维度上
的能力。这些维度包括世界知识:WebQuestions
SP (Yih等人，2016)，语言理解:CoNLL 2003
(Tjong Kim Sang和De Meulder, 2003)和翻译 :
IWSLT14 (Cettolo等人，2014)。
实验设计:对齐RQ1和RQ2的设置，我们引入两
个设置如下:
10
Because these three datasets have relatively small amounts of data
(a few thousand), the scaling range is from 1/1 of the data volume to 1/
8 of the data volume.
中的性能(P, R, F1)与数据量的缩放曲线呈正相
关关系。这两种能力表现出与RQ1中数学能力
表现相似的缩放曲线趋势。在世界知识(WebQS
P)的情况下，在F1和Hits@1方面观察到类似的
正相关趋势。但是，当数据比例从1/4降低到1/
8时，就会出现明显的性能波动，尤其是在翻译
能力的表现上，表现出相对不规则的趋势。这
些结论进一步支持了RQ1的核心结论，即不同
的数据具有不同的标度曲线。
对于混合域，研究结果与RQ2中的结论一
致，与单个源能力相比，低资源能力得到提高，
高资源能力得到降低。这一一致的结论适用于
世界知识边缘、语言理解和翻译能力。
表4:基于LLaMA-7B的单一和混合源设置在其他域中的结果。
和结束层(Layer31)的可视化结果，如图9和图
10所示。
起始层的可视化结果比较混乱，而中间
图8:LLaMA-7B在MATH和MBPP基准上的缩放曲线。
数学和代码的OOD基准测试结果
为了验证我们的发现在其他基准测试上的泛
化性，我们使用GSM8K和Code Alpaca作为训
练集。我们进一步对单个领域、混合领域以
及其他专业能力基准(包括MATH和MBPP)上
的不同训练策略的结果进行了评估，如表5和
图8所示。我们有以下发现:
(1)在个体域中，LLaMA在MATH和
MBPP中的性能与数据量呈正相关(与RQ1一
致)。
(2) LLaMA-7B在MATH和MBPP中表现出
高资源性能冲突和低资源性能增益之间的权
衡(与RQ2一致)。
(3)综合表1所示的一般能力结果，我们可
以看到，DMT在优先考虑一般能力的同时，
在MATH和MBPP方面保持了竞争结果。这进
一步验证了DMT的有效性(与RQ4一致)。
G不同层的可视化(Visualization
of Different Layers)
在本节中，我们对比了LLaMA-13B基线模型
与DMT (k=1/256)在起始层(Layer1)、中间层
(Layer15)
层和结束层的可视化结果比较清晰。中间层
和最后一层的结果是一致的，都指出基本模
型和采用DMT策略的模型在数学数据表示上
都表现出一定程度的分离，代码表示和一般
样本表示之间仍然存在一定程度的重叠。
H相等数据量VS.相等数据比例
在训练一般LLM的现实SFT短语中，不同能力
的数据量可能不同。因此，我们不是控制相
同的数据量，而是选择将具有相同子集比例
的数据集混合在一起，以便在上述实验中更
好地模拟真实场景。此外，我们进一步补充
了使用不同能力混合相同数据量的实验结果，
并将其与表6中使用相同子集比例的结果进行
了比较。
等数据量设置:以GSM8k RFT的数据量为
基准。我们以1/16、1/64、1/256的比例对数据
进行采样，并从Code alpaca和ShareGPT中混
合相同数据量的样本。
等比例设置:我们根据每个数据集的子集
比例分别以1/16、1/64、1/256的比例对数据
进行采样并混合，这与RQ2中的设置是一致
的。
可以观察到，在两种设置之间，三个基
准测试的结果并没有明显的差异。因此，这
些发现并不会显著影响论文中提出的主要实
验结论。
表5:不同训练策略下LLaMA-7B、13B在OOD基准上的详细结果。
表6:LLaMA-7B上不同SFT能力等数据量、等子集比例的对比实验
I 不同训练序列的对比实验
为了研究训练顺序对不同SFT能力的影响，我们
还进行了六种不同训练顺序的实验。这些实验
的结果和分析如表7所示。根据我们的研究结果，
我们得出以下结论:
1. 最后阶段训练的SFT能力往往保持较好的表
现。
2. 如果在前两个阶段训练通用能力和代码能
力，则代码能力有明显的性能下降，而数学能
力则没有表现出显著的影响。一个可能的原因
是代码生成的任务格式和一般能
力表现出类似的数据分布(如RQ3和Discussion1
中所讨论的)。这可能导致在连续微调过程中出
现更严重的灾难性遗忘现象。
J实验的详细结果
J.1 不同随机种子的结果
对于每个数据集，我们通过使用具有三种不同
种子的随机函数进行抽样，采用随机选择。随
后，我们对三个基准测试上从不同子集获得的
结果进行了比较分析。具体细节见表8。可以看
出，在三种不同的随机种子设置下，DMT仍然
保持其优越性。影响
图9:从左到右分别是LLaMA-7B上起始层(Layer1)、中间层(Layer15)和结束层(Layer31)的可视化结果。
图10:从左到右为LLaMA-7B上采用DMT(k=1/256)策略的起始层(Layer1)、中间层(Layer15)和结束层(Layer31)的可视化结
果。
不同子集对实验结果的影响不是关键因素，也
不影响整体趋势。
J.2 单源和混合源的结果
在表9和表10中，我们报告了LLaMA-7B、3B和
33B的混合域和单独域的详细对比结果，作为
RQ2的补充结果。
J.3 Data Ratio (k)的结果
在表11中，我们报告了三个基准上特定能力和
一般能力之间的数据比率(k)的详细结果，作为
RQ3中的补充结果。
J.4 DMT专用数据量结果
在表12中，我们报告了不同训练策略下LLaMA-
7B、13B、33B在三个基准上的详细结果，作为
RQ4的补充结果。
J.5 MT-Bench结果
在图11中，我们报告了在MT-Bench上采用不同
训练策略的LLaMA-7B、13B、33B的详细结果，
包括编码、提取、人文、数学、推理、角色扮
演、stem和写作能力。
J.6 补充结果供讨论
在图12中，我们报告了DMT(k=1/256)策略下
LLaMA-7B和LLaMA-7B的t-SNE可视化。下图
为不同k值下LLaMA-7B与DMT(k=1/256)的标度
关系。
此外，在表13中，我们报告了LLaMA-7B、
13B、33B在三个基准上采用不同训练策略的详
细结果，作为RQ4的补充结果。
表7:LLaMA-7B不同顺序训练结果
表8:LLaMA-7B、13B、33B在三个基准上不同训练策略下的结果。我们测试了DMT在三种随机种子下对指定数据随机
抽样k比例的结果。
表9:LLaMA-7B、13B混合结构域与单个结构域的对比实验。
表10 LLaMA-33B混合域与单独域的对比实验。
表11:具体能力和一般能力在三个基准上的数据比率(k)的详细结果。
表12:LLaMA-7B、13B在三个基准上不同训练策略的详细结果。
表13:从ShareGPT中剔除代码和数学相关样本后的缩放曲线
图11:LLaMA-7B、13B、33B在MT-Bench上不同训练策略的详细结果
图12:图为DMT(k=1/256)策略下LLaMA-7B和LLaMA-7B的t-SNE可视化。