ICML 2024 || 大模型偏好微调：关键策略与原因解析

最新推荐文章于 2025-05-18 22:44:32 发布

IT猫仔

最新推荐文章于 2025-05-18 22:44:32 发布

阅读量1.5k

点赞数 29

文章标签：语言模型人工智能自然语言处理机器学习学习

本文链接：https://blog.csdn.net/2301_82275412/article/details/139684943

版权

基本信息

Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data

作者及研究单位：

Fahim Tajwar, Carnegie Mellon University
Anikait Singh, Archit Sharma, Rafael Rafailov, Stanford University
Jeff Schneider, Carnegie Mellon University
Tengyang Xie, University of Wisconsin-Madison
Stefano Ermon, Chelsea Finn, Stanford University
Aviral Kumar, Google DeepMind

论文链接：https://arxiv.org/abs/2404.14367

摘要

本文分析探讨了在偏好标签上微调大语言模型（LLM）的不同方法，并为实践提供指导。

核心发现：

对于LLM的偏好微调，使用在线策略采样（on-policy sampling RL）和负梯度（negative sampling）的方法可以有效地改善模型性能。这些方法通过快速重新分配特定类别分布上的概率质量，从而更有效地对齐模型策略与目标分布。

介绍

基本概念

在给定的偏好数据集上，通过

（第一项）优化策略以最大化期望奖励，
（第二项）同时应用KL散度约束来限制策略与参考策略之间的分布差异，确保策略更新的稳健性。

具体而言，该目标可以表述为：

偏好微调分类（Preference Fine-Tunning）

1. 在线采样策略（on-policy sampling）：

根据当前学习到的策略（policy，）显式地采样新的响应或行为。例如REINFORCE：

通俗而言在线采样策略根据模型当前的状态生成新的文本或响应，然后使用这些响应来进一步训练或微调模型，使其更好地适应特定的任务或偏好。其与离线学习（offline learning）相对，离线学习使用历史数据或模拟数据进行学习，而不直接与环境交互。

补充：完全离线微调方法 (Fully offline methods)

(1) 对比学习：完全离线的方法，例如直接偏好优化（DPO）和增量偏好优化（IPO），在没有进行在线策略采样的情况下，使用对比训练在偏好数据集上进行训练。这些方法对来自偏好数据集的响应（获胜响应）和（失败响应）进行训练。

尽管没有在线策略采样，这些方法通过对比损失明确尝试减少失败响应的对数似然比，即减少。这里，表示当前策略，表示参考策略。

（2）监督微调：另一个离线方法是偏好监督微调（Pref-FT, Dubois et al, 2024)，它对首选响应执行监督微调。这些方法通常类似于离线无模型方法，即这些方法不使用奖励模型来进行训练。这意味着它们直接从偏好数据中学习，而不是依赖于从数据中学习得到的奖励模型来指导策略的优化。

2. 在线策略样本复用（on-policy sample reuse）

在执行策略策略采样后，对于给定的提示-响应（prompt-response）对，是否对同一数据点进行多次梯度更新。

样本复用可以提高数据的利用效率，尤其是在数据稀缺的情况下。然而，它也需要仔细的平衡，以避免过度拟合于特定的样本，并且保持算法更新的多样性。此外，样本复用在计算资源有限的情况下尤其有用，因为它允许算法从有限的数据中学习更多的信息。

3. 负梯度（negative gradient）

通过最小化损失函数来减少特定响应的可能性。这种策略通过将这些响应的似然函数的梯度乘以一个负系数来实现，目的是降低那些不希望发生的响应的概率。

几何解释： 在线策略采样（On-policy sampling）逐步将策略的质量（或概率分布）从参考策略转移到采样策略，目的是使策略向奖励函数中的峰值移动，这个峰值由指示。随着时间的推移，模型将更倾向于生成那些能够获得更高奖励的响应。

相对地，离线方法（offline methods）使用负梯度来降低在已学习策略下不良响应的可能性。这些方法通过减少不良响应的对数似然来实现这一目标(negative gradient)，从而在中产生比仅最大化某种似然的策略更大的偏差。

关键启示

奖励峰值离参考策略较远（情况1 & 情况2）

情况1：偏好数据覆盖，在线采样策略很重要。
情况2：偏好数据未覆盖，在线采样策略很重要，负采样策略有很大帮助。

奖励峰值离参考策略较近（情况3）

情况3：离线监督方法有效，不需要在线策略采样和负梯度方法。

总结

通过一系列实验和理论分析，提出了在偏好数据上微调LLM时应使用的策略。此外，作者还讨论了这些方法的理论基础，并提出了模式寻求目标(mode-seeking objectives)的概念，以统一和理解这些方法(详细请见作者原文 Section 6)。这些发现对于LLM的偏好微调实践具有重要的指导意义。