From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction T


在大型语言模型领域,指令 数据质量和数量之间的平衡已成为焦点。认识到这一点,论文为LLMs引入了一种自引导方法,可以从大量开源数据集中自主识别和选择樱桃样本,从而有效地最大限度地减少手动管理和调整LLMs指令的潜在成本。我们的关键创新是 指令遵循难度 (IFD) 指标,它是识别模型预期响应与其自主生成能力之间差异的关键指标。通过IFD的熟练应用, 精确定位樱桃样本,模型训练效率显着提升。对 Alpaca 和 WizardLM 等数据集的实证验证支撑了我们的发现;只需传统数据输入的 10%,我们的策略就展示了改进的结果。这种自我引导的挑选和 IFD 指标的综合标志着法学硕士优化的变革性飞跃,有望实现效率和资源意识的进步。代码、数据和模型将可用。

Introduction

精心设计的指令或提示可提供必要的上下文信息,从而完善模型生成相关且特定于任务的输出的能力(Taori 等人,2023;Ouyang 等人,2022)。根据 Wang 等人的研究结果。 (2022b) 和 Self-Instruct (Wang et al., 2023b) 早期实验中,减少每个任务的实例数量不会降低模型对未见过的任务的泛化性能。传统上,指令调整主要依赖于积累大量数据集。 LIMA(Zhou 等人,2023)的一项开创性启示强调了指令调整的艺术:决定模型性能的不是数据量,而是数据质量。 LIMA 的研究结果强调,即使是有限数量的手动管理的高质量数据也可以提升模型的指令遵循能力。虽然它强调了数据过剩的有效性,但如何从浩瀚的可用数据集中自动识别高质量数据的问题仍在研究中。在我们的研究中,我们引入了一种新颖的方法,可以从广泛的开源数据集中自主识别最具影响力的训练样本,我们将其称为“樱桃数据”。这些数据片段对于增强大型语言模型 (LLM) 指令调优特别有效。我们假设的核心是法学硕士通过精心挑选的指令数据进行初步训练,可以本质上学会辨别和遵循指令。这种能力使他们能够评估更广泛的数据集的质量,并估计在自我引导方式下遵循指令的难度。

我们的方法涉及一个自我引导的过程,该过程首先在“从简短经验中学习”阶段熟悉模型与目标数据集的子集。此阶段为后续的“根据经验评估”阶段奠定基础,在该阶段我们引入了指令遵循难度 (IFD) 分数。该指标侧重于最小化交叉熵损失,通过比较有无指令内容的模型响应中的损失,有助于将指令对答案的影响隔离开来。我们建议选择具有中等 IFD 分数的样本进行指令调整,因为这可以在解决挑战性问题和避免冗余之间取得平衡。这种方法对于增强模型处理和遵循复杂指令的能力至关重要。在最后的“自我引导体验再训练”阶段,我们使用具有显着 IFD 分数的樱桃数据来完善我们的模型,从而产生我们所说的“樱桃模型”。这种方法强调数据质量而不是数量,与依赖外部模型进行数据管理的现有技术明显不同。大量的实验结果验证了我们方法的有效性。通过将我们的方法应用于 Alpaca 和 WizardLM 指令调整数据集,我们的模型在仅选择约 5% 数据的情况下优于官方 Alpaca 模型,在选择约 10% 数据的情况下优于重新实现的 WizardLM 模型。本文的主要贡献:

  • 我们提出了一种自我引导的方法,使模型能够从大量的开源数据集中自主地“选择樱桃数据”。这项创新最大限度地减少了手动管理并优化了现有数据资源的使用,从而降低了成本并简化了培训。
  • 我们引入指令遵循难度(IFD)指标作为工具来识别模型响应与其自主生成能力之间的差距。使用 IFD 指标,我们可以精确定位这些樱桃样本,从而优化模型训练效率。 •
  • 在 Alpaca 和 WizardLM 等数据集验证的支持下,我们的策略仅用 10% 的典型数据输入就展示了增强的结果,强调了我们方法的效率和变革性影响。
  • 我们提供了不同的特定于模型的视图来衡量新指令的难度,这可能有利于未来的指令数据生成工作。

Method

在这里插入图片描述
Learning from Brief Experience:利用少量数据训练模型1k 1epoch;使用base模型对数据进行向量化聚类,100个类,每个类选10个数据使用选出来的数据训练模型1个epoch。这一步感觉可以理解为训练数据每个分布都取相同少量的数据
Evaluating Based on Experience:利用训练好模型计算原始数据中所有IFD指标;使用训练好的模型对所有训练数据进行打分,计算CAS同样使用训练好的模型打分,计算DAS。根据计算得到的CAS和DAS计算IDF,将样本根据IDF进行排序选择5%的数据作为樱桃数据
Retraining from Self-Guided Experience:利用樱桃数据进行模型重训练

在这里插入图片描述

DAS
在这里插入图片描述
IFD
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值