LLM See, LLM Do

这篇论文《LLM See, LLM Do: Guiding Data Generation to Target Non-Differentiable Objectives》的核心是探索如何利用合成数据生成(synthetic data generation)来指导大型语言模型(LLMs)达到非微分目标,例如提高词汇多样性、降低毒性等,这些目标通常难以通过传统基于梯度的优化方法实现。研究者们提出了“主动继承”(active inheritance)的概念,这是一种通过有意识地选择和生成具有特定属性的合成数据来引导模型行为的方法,从而在不直接修改模型参数的情况下,优化模型的输出特性,实现对模型行为的精细调控。

摘要(Abstract)

  • 研究背景:合成数据的广泛使用引发了关于数据生成模型如何通过蒸馏数据影响其他大型语言模型的新问题。
  • 研究内容:本文系统研究了合成数据整合对模型内部偏见、校准和生成文本属性及偏好的影响。
  • 主要发现:模型对某些属性异常敏感,即使合成数据提示看起来“中性”。
  • 研究问题:是否可以利用数据生成过程明确引导模型在测试时具备我们想要的属性。
  • 提出概念:提出了“主动继承”(active inheritance),即有意识地根据非微分目标约束合成数据。

引言(Introduction)

  • 数据获取成本:高质量的标记数据获取成本高昂,限制了训练集的即时调整以增加覆盖范围或任务多样性。
  • 现有方法局限:现有方法通过重新格式化、转换或修剪现有数据来增强“固定”数据集,但限制了引入新属性或明确优化特定任务指标的可行性。
  • 研究目标:利用数据生成过程引导模型行为,以获得测试时所需的特性。

方法(Methods)

  • 从合成数据学习:介绍了知识蒸馏的基本形式和LLM-as-a-teacher设置。
  • 测量数据特性:使用一系列分析函数来追踪从教师模型到学生模型的被动属性继承。
  • 主动继承:通过选择具有所需特性的代理标签来直接引导放大所需属性。
  • 从多个教师学习:使用多个教师模型来最大化获得高价值样本的机会。

主动继承(Active Inheritance)旨在通过有意识地塑造合成数据来引导模型行为,使其在测试时具备特定的非微分特性。具体实施步骤如下:

  1. 定义目标属性:首先确定你希望模型具备的非微分特性,例如词汇多样性、文本长度、减少毒性等。

  2. 生成候选数据:使用一个或多个教师模型(teacher models)生成针对特定提示(prompts)的多个候选响应(candidate responses)。这些响应构成了用于进一步筛选的数据池。

  3. 筛选最优样本:根据目标属性,从候选数据中选择最优样本。例如,如果目标是增加词汇多样性,那么选择具有最高词汇多样性得分的样本。

  4. 构建合成数据集:使用筛选出的样本构建一个新的合成数据集。这个数据集专门设计来强化模型的特定行为或属性。

  5. 微调模型:将学生模型(student model)在新的合成数据集上进行微调(finetune)。微调过程中,模型学习模仿这些具有目标属性的样本。

  6. 迭代优化:根据微调后模型的表现,可能需要返回到步骤2或3,进一步迭代优化合成数据集,直到模型达到预期的属性水平。

  7. 评估和监控:在整个过程中,持续评估和监控模型的行为变化,确保其符合预期目标,并调整策略以应对任何未预见的变化。

主动继承的关键优势在于它的简单性和可解释性,因为它依赖于直接指导合成数据空间中的生成,并且可以通过观察到的数据特性来解释模型行为的变化。这种方法不需要复杂的强化学习算法、贝叶斯优化或进化算法,而是通过精心设计的合成数据来实现对模型行为的引导。

实验设置 (Experimental Setup)

指标分析 (Profiling Metrics)
  • 文本特性:使用TextDescriptives框架来评估模型生成文本的统计数据和可读性得分,包括字符/词/句子数量、句子长度、以及Gunning-Fog和Rix可读性指数。
  • 社会偏见:使用StereoSet、CrowS-Pairs和BBQ等基准来衡量模型在不同类别(如年龄、性别、种族等)的偏见。
  • 毒性:使用Expected Maximum Toxicity (EMT) 和 Toxicity Probability 来评估模型生成的文本的毒性。
  • 校准:使用Expected Calibration Error (ECE) 来衡量生成不确定性与正确性之间的一致性。
被动继承实验 (Passive Inheritance Experiments)
  • 模型选择:实验中使用了LLaMa2-7B、LLaMa2-13B和Mixtral-8x7B三种模型,它们分别作为学生模型和教师模型。
  • 数据蒸馏:使用Alpaca数据集的52k个实例来生成合成数据,这些数据随后用于微调学生模型。
结果:被动继承的教师属性 (Results: Passive Inheritance of Teacher Properties)
模型生成属性的影响 (Impact on Model Generation Properties)
  • 社会偏见:尽管使用的提示是中性的,但模型在各个偏见指标上都显示出显著变化。
  • 文本特性:包括文本长度、复杂性和词汇多样性在内的指标显示出不同程度的变化。
  • 毒性:所有模型在毒性指标上都显示出增加,表明微调可能导致模型更容易生成有害内容。
模型偏好的影响 (Impact on Model Preferences)
  • LLM作为评估者:研究了当LLM用作评估者时,合成数据的来源如何影响其偏好。

主动继承 (Active Inheritance)

增强所需属性 (Enhancing Desired Attributes)
  • 数据生成:使用Alpaca数据集的提示从不同模型生成响应,以获得文本特性的多样性。
  • 筛选样本:基于所需的特性(如词汇多样性或文本长度)选择最优样本进行微调。
减少不良属性 (Mitigating Negative Attributes)
  • 毒性缓解:通过选择低毒性的样本来微调模型,以减少生成有害内容的可能性。

实验结果 (Experimental Results)

  • 图1 展示了通过主动继承策略(包括单源和多源采样)对模型行为进行定向调整的效果,包括增强期望属性(如文本长度和词汇多样性)和减少不良属性(如毒性)。
  • 图2 展示了在不同模型上微调后,社会偏见、文本特性和毒性指标的变化。
  • 图3 展示了不同模型在微调后对最佳答案的一致性,以及与人类评估者的一致性。

讨论和结论 (Discussion and Conclusion)

  • 实验结果表明,通过主动继承策略可以有效地引导模型行为,增强或减少特定的属性。
  • 论文还讨论了这种方法的潜在应用和局限性,并提出了未来工作的方向。

这些实验展示了通过精心设计的合成数据集对模型进行微调,可以有效地改变模型的行为,使其更好地符合我们期望的特性。

相关工作(Related Work)

  • LLM循环性:探讨了LLM通过蒸馏数据相互影响的问题。
  • LLM特性分析:讨论了评估LLM在多种任务中能力的重要性。
  • 优化非微分属性:讨论了在NLP研究中优化非微分属性的历史。

结论(Conclusion)

  • 研究意义:本文提供了合成数据对LLM属性和偏好影响的深入理解,并提供了如何定制模型以符合期望生成配置文件的见解。
  • 局限性:研究的局限性包括可能影响发现普遍性的多种潜在修改,以及用于引导蒸馏的指标与其他潜在变量的非独立性。

附录(Appendix)

  • 提供了实验设置的详细信息,包括使用的模型、数据蒸馏方法、训练细节和评估基准。
  • 提供了用于分析模型的文本特性、社会偏见、校准和毒性的工具箱的详细信息。

整体而言,这篇论文提出了一个新颖的概念“主动继承”,通过有意识地塑造合成数据来引导模型行为,以达到特定的非微分特性,这为LLM的训练和优化提供了新的思路和方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

OptimaAI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值