可选择的反思指令微调

b1e123fce31142e79e2e36766c6779e8.png

研究背景

  1. 研究问题:这篇文章要解决的问题是大型语言模型(LLMs)在指令微调过程中,如何提高数据质量以提高模型的任务适应能力现有方法在提高数据质量时,往往忽略了学生模型与数据的兼容性
  2. 研究难点:该问题的研究难点包括:如何确保教师模型改进的数据与学生模型的需求兼容,以及如何在不需要大量新数据的情况下,自动优化现有指令微调数据
  3. 相关工作:该问题的研究相关工作有:人类专家策划的数据集、利用预训练LLMs蒸馏响应的方法、以及探索LLMs的自我改进能力来改进训练样本。然而,这些方法通常没有考虑评估模型与实际学生模型之间的差异。

研究方法

这篇论文提出了选择性反射调整(Selective Reflection-Tuning),用于解决指令微调数据质量问题。具体来说。

选择性指令反射:首先,教师模型根据某些标准对原始数据样本进行反思,生成一个新的指令-响应对。公式如下:58d46939859844b8977826543cb22b22.png

x0是原始指令,y0是原始响应,Cins是反射标准,g是教师模型。

选择性响应反射:其次,教师模型再次根据某些标准对响应进行反思,生成一个新的响应。公式如下:

fce60e11592d49a6a8eaedd25cf963e8.png

其中,x1​ 是更新后的指令y1​ 是原始响应,res,1​,... 是响应反射标准,g 是教师模型。 

数据选择:然后,学生模型根据指令遵循难度(IFD)和响应可行性(r-IFD)评分,决定是否接受改进后的数据。公式如下:

acf5457c9d15413cbf2cb58f593b7448.png

其中,θ 是学生模型的参数,IFDθ​ 和IFDθ​ 分别是IFD和r-IFD评分。 

第一个公式:

这个公式表示学生模型在选择数据时,会寻找使得IFD分数最大化的指令-响应对(x, y)。这里的IFD分数衡量了给定指令x下,模型生成响应y的难度。具体来说:

  • IFDθ​(y∣x):表示在给定学生模型参数θ的条件下,模型在遵循指令x生成响应y的难度。这是通过比较生成响应y时的条件熵与无条件熵来计算的。
  • argmax:表示选择使得IFD分数最大的指令-响应对,即选择那些对学生模型来说难度最大的样本。这可以帮助模型在训练时专注于更具挑战性的任务。

在计算指令遵循难度(Instruction-Following Difficulty, IFD)时,使用 ppl(y)ppl(y)(困惑度)是为了提供一个基准,以便衡量指令 xx 对模型生成响应 yy 的实际帮助程度。这里的关键点在于比较两个不同情况下的困惑度:

  1. 给定指令时的困惑度 ppl(y∣x):这是模型在明确知道指令 xx 的情况下生成响应 yy 的困惑度。它反映了指令对模型生成特定响应的帮助程度。

  2. 无条件困惑度 ppl(y)ppl(y):这是模型在没有任何指令提示的情况下,仅凭其自身的语言模型知识生成响应 yy 的困惑度。它反映了模型在没有额外指令信息时生成该响应的难度。

为什么需要 ppl(y)?

  • 基准比较:ppl(y) 提供了一个基准,使得我们可以量化指令 x 对响应 y 的生成提供了多少帮助。如果没有这个基准,我们无法判断 ppl(y∣x) 的绝对值是高还是低,因为不同的句子本身就有不同的生成难度。

  • 难度量化:通过计算 ppl(y∣x) 与 ppl(y) 的比值,我们可以得到一个量化的指标来衡量指令的难度。这个比值(即 IFD)告诉我们指令使得生成响应变得相对容易还是困难。

  • 指导训练:在训练语言模型时,了解哪些指令对模型更有挑战性是很有用的。这可以帮助我们专注于那些对模型来说更困难的指令-响应对,从而更有效地使用训练数据。

通俗例子:

假设你是一个老师,正在教一个学生如何解决数学问题。

  • 无条件困惑度 ppl(y):这就像学生在没有你指导的情况下尝试解决一个复杂的数学问题。如果问题很难,学生可能会感到困惑,不知道从哪里开始。

  • 给定指令时的困惑度 ppl(y∣x):这就像你在给学生一些提示或指导后,学生再次尝试解决问题。有了这些指导,学生可能会更容易找到解决问题的方法。

  • 比较两个困惑度:通过比较你在提供指导前后学生的困惑程度,你可以了解你的指导对学生有多大帮助。如果指导后学生的困惑度显著降低,这意味着你的指导是有效的。

通过这种方式,IFD 通过比较有无指令时的困惑度,提供了一个量化的方法来评估指令的有效性和难度,从而帮助我们更好地理解和改进语言模型的训练过程。

第二个公式:

这个公式表示学生模型在选择数据时,会寻找使得r-IFD分数最小化的指令-响应对(x, y)。这里的r-IFD分数衡量了给定响应y时,模型推断出对应指令x的可行性。具体来说:

  • r−IFDθ​(x∣y):表示在给定学生模型参数θ的条件下,模型在给定响应y的情况下推断出指令x的难度。这是通过比较生成指令x时的条件熵与无条件熵来计算的。
  • minargmin:表示选择使得r-IFD分数最小的指令-响应对,即选择那些对学生模型来说最容易从响应推断出指令的样本。这有助于模型学习如何从响应中提取和理解指令的意图。

总的来说,这两个公式是选择性反射调整方法中的关键步骤,通过优化数据选择过程来提高模型在指令调整任务上的性能。通过选择难度适中且与学生模型兼容的数据,可以更有效地训练模型,使其更好地理解和遵循指令。

b53e0e6b31d344f792b74da9d5131d70.png

f1303b9f15f6435896bb88463c2b0ca6.png

7b9bdae4d06a4f5f9d3629ce6d9ad802.png

25106efacc66490d8c58718ad8924aff.png

d8b94e8c9ae149e1a8e463043955dd44.png

1. 选择性指令反思(Selective Instruction Reflection)

  • 初始数据:流程开始于一些初始数据,包括指令 x0​ 和响应 y0​。

  • 教师模型反思:教师模型首先对指令 x0​ 进行反思,以生成改进后的指令xins​。这个过程旨在使指令更加清晰、详细或更具挑战性。

  • 学生模型选择:然后,学生模型根据改进后的指令 xins​ 和原始指令 x0​,使用指令遵循难度(IFD)分数来评估哪个指令更有利于学习。学生模型选择IFD分数更高的指令,记为 x1​。

2. 选择性响应反思(Selective Response Reflection)

  • 教师模型再次反思:教师模型接着对响应 y0​ 进行反思,考虑到已经选择的指令 x1​,生成改进后的响应 yres​。这个过程旨在使响应更加准确、详细。

  • 学生模型再次选择:学生模型评估改进后的响应 yres​ 和原始响应 y0​,使用响应可行性(r-IFD)分数来决定哪个响应更适合学习。学生模型选择r-IFD分数更低的响应,记为 y2​。

3. 指令调整(Instruction Tuning)

  • 最终选择的数据:经过上述两个阶段的选择,学生模型得到了最终的指令-响应对 (x2​,y2​),这些数据被认为最适合用于进一步的训练。

  • 微调:使用这些精选的数据对,学生模型进行微调(Finetuning),以提高其在特定任务上的性能。

实验设计

  1. 数据集:实验使用了两个数据集:Alpaca数据集和WizardLM数据集。Alpaca数据集包含52,002个指令样本,WizardLM数据集包含250,000个指令样本,主要关注WizardLM-7b子集,包含70,000个样本。
  2. 评估指标:使用四种常用的自动评估指标:成对比较、AlpacaEval、Open LLM Leaderboard和MT-Bench。此外,还进行了人工评估。
  3. 实验设置:使用Llama2预训练模型,训练过程中使用Adam优化器,7B模型的学习率为2e-5,13B模型的学习率为1e-5,批量大小为128,训练三个epoch,最大长度为2048,预热率为0.03。

结果与分析

  1. 主要结果:在成对比较中,sRecycled WizardLM 7B模型在大多数情况下优于其他开源模型,无论模型大小或是否使用额外的RLHF/AIF过程。

d37f7bb0fdc84f6e8a5a3694e0665a31.png

  1. AlpacaEval Leaderboard:在AlpacaEval排行榜上,sRecycled WizardLM 7B和sRecycled WizardLM 13B模型表现出色,胜率接近重量级对手,且不依赖于额外的RLHF或RLAIF过程。

831f5535d59d476e943b1d7ee06d0f75.png

  1. Open LLM Leaderboard:在Huggingface Open LLM Leaderboard上,sRecycled WizardLM 7B模型在不同数据量下的表现均优于大多数现有模型,表明其数据质量的高水平。

22e15de269374d538b9c692ce43ef32b.png

  1. 少量数据场景:在少量数据场景下,sRecycled WizardLM 7B模型在仅使用不到1,000个选择性数据时,表现优于大多数现有7B模型,进一步验证了数据质量的高水平。

  2. 消融研究:消融研究表明,指令反射和响应反射均能显著提高数据质量,且选择性机制进一步提升了模型性能。

消融研究(Ablation Study): 通过消融实验验证了反思和选择机制的有效性。结果表明,仅进行指令反思或响应反思能略微提升数据质量,同时进行两者并加上选择机制能显著提升性能。

优点与创新

  1. 教师-学生协作管道:提出了一种教师模型和学生模型合作的管道,通过这种协作构建更一致且与学生模型兼容的指令调优数据集,适用于其他自我改进场景。
  2. 细粒度的评估方案:引入了反向IFD(r-IFD)指标,量化指令-响应对的相关性,并代表样本对学生模型的可行性。
  3. 少量数据下的卓越性能:仅通过对少量自动生成的数据进行指令调优,模型就实现了顶级性能,表明数据质量极高。
  4. 创新的双向IFD指标:提出了IFD和r-IFD双重指标,全面而细致地评估指令调优过程,确保精炼的数据与学生模型的能力和目标一致。
  5. 高效的数据增强方法:通过选择性反射调优,显著提高了现有指令调优数据的质量,无需收集全新的数据。

不足与反思

  1. 学生模型差异:不同学生模型选择的数据样本不同,因此需要为不同学生模型重新计算IFD分数和r-IFD分数。尽管基于统计的方法比生成式方法更高效,但对于新模型仍需重新计算,这一过程仍不够高效。

使用的prompt:

17311564c2a8426186a4266a9cce4ec2.png

0fc8392eb145422d99e0062de82da3a7.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

OptimaAI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值