RLAIF（0）—— DPO（Direct Preference Optimization）原理与代码解读

最新推荐文章于 2025-03-28 22:24:45 发布

阿姆姆姆姆姆姆姆

最新推荐文章于 2025-03-28 22:24:45 发布

阅读量4.5k

点赞数 43

分类专栏： RLXF 文章标签：人工智能 RLHF DPO 强化学习深度学习 chatgpt

本文链接：https://blog.csdn.net/quoniammm/article/details/136585592

版权

之前的系列文章：介绍了 RLHF 里用到 Reward Model、PPO 算法。
但是这种传统的 RLHF 算法存在以下问题：流程复杂，需要多个中间模型对超参数很敏感，导致模型训练的结果不稳定。
斯坦福大学提出了 DPO 算法，尝试解决上面的问题，DPO 算法的思想也被后面 RLAIF（AI反馈强化学习）的算法借鉴，这个系列会从 DPO 开始，介绍 SPIN、self-reward model 算法。
而 DPO 本身是一种不需要强化学习的算法，简化了整个 RLHF 流程，训练起来会更简单。

原理

传统的 RLHF 步骤一般是：训练一个 reward model 对 prompt 的 response 进行打分，训练完之后借助 PPO 算法，使得 SFT 的模型和人类偏好对齐，这个过程我们需要初始化四个基本结构一致的 transformer 模型。DPO 算法，提供了一种更为简单的 loss function，而这个就是 DPO 的核心思想：针对奖励函数的 loss 函数被转换成针对策略的 loss 函数，而针对策略的 loss 函数又暗含对奖励的表示，即人类偏好的回答会暗含一个更高的奖励。

$\mathcal{L}_{\mathrm{DPO}}\left(\pi_\theta ; \pi_{\mathrm{ref}}\right)=-\mathbb{E}_{\left(x, y_w, y_l\right) \sim \mathcal{D}}\left[\log \sigma\left(\beta \log \frac{\pi_\theta\left(y_w \mid x\right)}{\pi_{\mathrm{ref}}\left(y_w \mid x\right)}-\beta \log \frac{\pi_\theta\left(y_l \mid x\right)}{\pi_{\mathrm{ref}}\left(y_l \mid x\right)}\right)\right]$