【强化学习】DPO（Direct Preference Optimization）算法学习笔记

几度热忱

已于 2024-05-30 20:34:05 修改

阅读量1w

点赞数 41

分类专栏： # 强化学习文章标签：算法学习笔记

于 2024-05-30 20:14:27 首次发布

本文链接：https://blog.csdn.net/Ever_____/article/details/139304624

版权

21 篇文章

订阅专栏

RLHF与DPO的关系

DPO（Direct Preference Optimization）和RLHF（Reinforcement Learning from Human Feedback）都是用于训练和优化人工智能模型的方法，特别是在大型语言模型的训练中
DPO和RLHF都旨在通过人类的反馈来优化模型的表现，它们都试图让模型学习到更符合人类偏好的行为或输出
RLHF通常涉及三个阶段：全监督微调（Supervised Fine-Tuning）、奖励模型（Reward Model）的训练，以及强化学习（Reinforcement Learning）的微调
DPO是一种直接优化模型偏好的方法，不需要显式地定义奖励函数，而是通过比较不同模型输出的结果，选择更符合人类偏好的结果作为训练目标，主要是通过直接最小化或最大化目标函数来实现优化，利用偏好直接指导优化过程，而不依赖于强化学习框架

在这里插入图片描述

Bradley-Terry模型是一种用于比较成对对象并确定相对偏好或能力的方法。这种模型特别适用于对成对比较数据进行分析，从而对一组对象进行排序
$P(i{>}j)=\frac{\alpha_i}{\alpha_i{+}\alpha_j}$
$\alpha_i$ 表示第 $i$ 个元素的能力参数，且大于0。 $P (i > j)$ 表示第 $i$ 个元素战胜第 $j$ 个元素的概率
Bradley-Terry模型的参数通常通过最大似然估计（MLE）来确定
sigmoid函数： $\sigma(x) = \frac{1}{1 + e^{-x}}$
loss函数的化简
$\begin{aligned}Loss &=-\mathbb{E}_{(x,y_{w},y_{l})\sim D}[\ln\frac{exp(r(x,y_{w}))}{exp(r(x,y_{w}))+exp(r(x,y_{l}))}] \\ &= -\mathbb{E}_{(x,y_{w},y_{l})\sim D}[\ln\frac{1}{1 + exp(r(x,y_{l})- r(x,y_{w}))}] \\ &= -\mathbb{E}_{(x,y_{w},y_{l})\sim D}[\ln \sigma(r(x,y_{w})-r(x,y_{l}))] \end{aligned}$
loss函数的目标是优化LLM输出的 $y_w$ ，经过reward计算的得分尽可能的大于 $y_w$ 经过reward计算的得分

在这里插入图片描述

DPO通过比较不同输出的偏好，构建一个目标函数，该函数直接反映人类的偏好，通常使用排序损失函数（例如Pairwise Ranking Loss），该函数用来衡量模型在用户偏好上的表现
DPO优化过程：使用梯度下降等优化算法，直接最小化或最大化目标函数。通过不断调整模型参数，使得模型生成的输出更加符合用户的偏好
基准模型一般指经过SFT有监督微调后的模型
DPO的目标是尽可能得到多的奖励，同时使得新训练的模型尽可能与基准模型分布一致