[论文笔记]大模型微调数据配比策略

大模型微调数据配比策略

How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition

https://arxiv.org/pdf/2310.05492

一、背景:

        大模型是无监督的多任务学习器,其强大的泛化能力可以同时理解并执行多种任务,比如做算术、写代码、通用问答。为了实现大模型的通用性,在预训练和后训练两个阶段都会使用大量的复合数据。

二、动机:

        复合数据的构成比例和规模是如何影响大模型最终的泛化能力和指令遵从能力?有没有更好的数据配比策略来提高大模型的效果?

三、思路:DMT(Dual-stage Mixed Fine-tuning)

        作者提出了一种新的数据配比策略——双阶段混合微调,这个策略组合了多任务学习和序列学习,并做了一些优化。
        1)在第一阶段,使用数学和代码两个垂直领域的数据混合微调基座模型,得到模型A;
        2)在第二阶段,使用部分数学、代码数据,并叠加全量的通用问答数据混合微调模型A,得到模型B;
        3)模型B即为最终的对话模型。

四、实践结论

        1)【数据规模的影响】在数学推理和代码编写任务上,扩大训练数据量可以明显提高模型效果;但是在通用问答任务上,当训练数据量达到某个阈值后,扩大训练数据量对提高模型效果的作用不明显;
        2)【单一数据源vs混合数据源】数据总量比较小时,在数学推理、代码编写、通用问答三个任务上,混合数据源的效果优于单一数据源;当数据总量比较大时,单一数据源的效果要优于混合数据源;
        3)【数据配比的影响】只有当异源数据在格式和内容上差异非常大时,数据配比几乎不产生负面影响,否则会降低两个任务上的效果;
        4)【数据配比策略】DMT的效果要优于目前其他方案。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

心心喵

喵喵(*^▽^*)

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值