DPO原理及训练经验

灵海之森

于 2024-08-14 23:37:29 发布

阅读量482

点赞数 12

分类专栏： LLM 文章标签： python

本文链接：https://blog.csdn.net/qq_43814415/article/details/141162156

版权

LLM 专栏收录该内容

36 篇文章 1 订阅

订阅专栏

著名的llama3.1在技术报告上说训练的模型经历了预训练、后训练（SFT和DPO），没有使用更为复杂的PPO等，取得了最好的效果。
这套流程已经标准化了，对于普通人，做做后续的SFT和DPO即可。
【Llama 3.1论文精读 · 3. 模型【论文精读·54】】 https://www.bilibili.com/video/BV1Q4421Z7Tj/?share_source=copy_web&vd_source=29af710704ae24d166ca951b4c167d53

后训练是对齐阶段，让模型给出的结果能对齐人类的偏好，比方说某种说话风格，某种认知。
SFT暂且不表，它的作用就是使模型拟合训练数据，学习到语言风格等。已经是很通用的了。
DPO，直接偏好优化：通过利用奖励函数与最优策略之间的映射关系，证明这个受限的奖励最大化问题可以通过单阶段的策略训练来精确优化。本质上是在人类偏好数据上解决一个分类问题。
在这里插入图片描述
首先介绍RLHF

RLHF

1.SFT Phase

在base模型上，用SFT数据集训练，得到chat模型。现在都叫instruct。

2.Reward Modelling Phase 训练奖励模型

给定一个提示词，基于chat模型生成两个答案y1, y2，由人工判断哪个更好，得到偏好结果yw和yl，表示w是人工认为好的，l是不好的。

这个阶段的奖励模型拟合的目标就是有没有一个模型（函数、分布）能够代替人工，来对某一个提示词生成的每一个答案打分。可以形式化地表示r*。

最常用的，在两个候选答案中学习人类偏好的分布的建模策略是Bradley-Terry model.可以看到，是好的打分/好坏两种情况的打分的总和，也是一个奖励状态的softmax
在这里插入图片描述

将chat模型作为初始化r*，通过最大似然估计来拟合真实的r*。
最大似然函数就是数据的联合概率，最大化可以简化为对数似然函数，最后对其求导并令其为0，找到最优参数。 下面是最大似然函数的计算步骤
在这里插入图片描述

再将其转换为二分类问题，对于yw和yl，模型r都要给定一个分数，r(x,yw)和r(x,yl)，然后才能比较它们的分数来判断r是否做出了正确的偏好选择。

既然是用最大似然函数来拟合，那么就有损失函数为
在这里插入图片描述

偏好比较问题转换为二分类问题的关键在于构建一个对数似然损失函数，该损失函数利用两个输出（赢和输）的reward差值，通过Sigmoid函数将其转化为一个概率，模型通过优化这个损失函数来学习如何正确判断两者的优劣关系。
这一过程使得偏好建模的问题能够用标准的二分类方法来解决。

3.RL Fine-Tuning Phase

此时已经得到基础的聊天模型（称为policy model）以及一个训练好的奖励模型。优化的模型是经过SFT（Supervised Fine-Tuning）训练后的模型，这个模型通常称为策略模型（Policy Model）。**奖励模型（Reward Model）**在这个阶段是用来评估策略模型生成的输出的质量，提供反馈以指导策略模型的优化。

通常使用强化学习方法来进一步优化模型，使其生成的回答更符合人类的偏好。这个阶段的目标是在已经训练好的奖励模型的指导下，通过强化学习进一步微调模型，使其更好地满足用户的需求。
优化目标通常是通过最大化策略模型的期望奖励，并且通过控制与参考模型的距离来避免模型崩溃（mode collapse）或过度偏离参考模型。

在这里插入图片描述

形象图示

DPO

概述

它针对与RLHF相同的目标，但提供了一种更简单、更直接的培训方法。

DPO的工作原理是增加偏好样本的对数概率与减小非偏好样本响应的对数概率。它结合了动态加权机制，以避免仅使用概率比目标时遇到的模型退化问题。
DPO直接根据策略定义偏好损失。给定一个关于模型响应的人类偏好数据集，DPO可以使用简单的二元交叉熵目标来优化策略.

公式推导

在这里插入图片描述

工作流程

DPO源码：https://github.com/huggingface/trl/blob/main/trl/trainer/dpo_trainer.py#L817
在这里插入图片描述
可以看到除了加载要优化的模型，还要加载参考模型，因为要计算首选和拒绝响应的隐式奖励。beta 指隐式奖励的超参数，beta是DPO损失的温度参数，通常取值范围在0.1到0.5之间。当beta趋近于0时，我们可以忽略参考模型。

指标

在DPO（Direct Preference Optimization）训练和评估过程中，以下几个奖励指标的取值范围和意义如下：

rewards/chosen：
- 取值范围：这个指标表示策略模型与参考模型在“chosen”响应上的对数概率差的平均值，经过beta参数的缩放。通常，这个值可以为正或负，具体取决于策略模型在优化过程中如何调整相对于参考模型的生成概率。
- 意义：正值表示策略模型倾向于比参考模型更好地生成符合人类偏好的回答；负值则表示策略模型在这一方面表现较差。
rewards/rejected：
- 取值范围：类似于rewards/chosen，这个指标表示策略模型与参考模型在“rejected”响应上的对数概率差的平均值，经过beta缩放。这个值也可能为正或负。
- 意义：正值表示策略模型在生成较差回答时比参考模型更可能避开这些回答；负值表示策略模型在这个方面可能需要进一步优化。
rewards/accuracies：
- 取值范围：这个指标表示“chosen”奖励高于“rejected”奖励的频率的平均值，通常介于0和1之间。
- 意义：这个值越接近1，表示策略模型越频繁地正确选择了人类偏好的回答。这是衡量模型是否在优化过程中准确区分“好”与“坏”回答的关键指标。
rewards/margins：
- 取值范围：表示“chosen”响应和对应“rejected”响应之间的奖励差异的平均值。这个值可以为正或负，具体取决于策略模型的输出质量。
- 意义：正值意味着策略模型的“chosen”响应明显优于“rejected”响应，模型对不同回答之间的差异更为敏感。负值则表明需要更多的优化。

经验：
beta从0.05到0.5之间的调整还是很有必要实验的，一般只推荐训练 1 个epoch即可

参考：
1.https://www.cnblogs.com/lemonzhang/p/17910358.html
2.https://zhuanlan.zhihu.com/p/653975451
3.https://mp.weixin.qq.com/s/hBuMIUjnrqTVStPs1se8Mg
4.https://blog.csdn.net/b1055077005/article/details/100152102

灵海之森

关注

12
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
0
评论
DPO原理及训练经验

它针对与RLHF相同的目标，但提供了一种更简单、更直接的培训方法。DPO的工作原理是增加偏好样本的对数概率与减小非偏好样本响应的对数概率。它结合了动态加权机制，以避免仅使用概率比目标时遇到的模型退化问题。DPO直接根据策略定义偏好损失。给定一个关于模型响应的人类偏好数据集，DPO可以使用简单的二元交叉熵目标来优化策略.
复制链接

扫一扫