【基础知识】DPO(Direct Preference Optimization)的原理以及公式是怎样的？

最新推荐文章于 2025-05-05 02:49:44 发布

页页读

最新推荐文章于 2025-05-05 02:49:44 发布

阅读量2.2w

点赞数 55

分类专栏：基础知识大模型强化学习文章标签：大模型强化学习 Human Feedback

本文链接：https://blog.csdn.net/u014386899/article/details/136633074

版权

本文介绍了一种名为DirectPreferenceOptimization(DPO)的方法，它通过直接优化语言模型，避免了传统RLHF中的奖励模型构建和强化学习步骤，以更好地满足人类偏好。DPO利用二元交叉熵作为目标函数，简化了偏好学习过程并可能提高效率和准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文：Direct Preference Optimization: Your Language Model is Secretly a Reward Model

1.基本原理

DPO（Direct Preference Optimization）的核心思想是直接优化语言模型（LM）以符合人类偏好，而不是首先拟合一个奖励模型然后使用强化学习（RL）进行优化。这是通过对偏好学习问题进行重新参数化来实现的，其中使用了一个简单的二元交叉熵目标函数来直接从人类偏好中训练LM。下面是DPO方法的数学推导核心步骤：

1.1 基本概念

首先，假设我们有一个预训练的语言模型 $\pi_{\text{ref}}$ 和一组人类对模型生成结果的偏好数据。我们的目标是训练一个新的策略模型 $\pi$ ，使其生成的输出更符合人类的偏好。

1.2 引入奖励模型

在传统的RLHF（Reinforcement Learning from Human Feedback）框架中，人类的偏好被用来训练一个奖励模型 $r$ ，该模型预测人类对于给定输入和输出对的偏好强度。然后，使用RL算法优化语言模型以最大化这个预测的奖励。

1.3 直接偏好优化（DPO）

DPO的关键创新是避免显式训练奖励模型，而是直接根据人类的偏好来优化语言模型。为了实现这一点，我们首先定义一个基于偏好的目标函数，直接将人类的偏好转化为模型训练的损失函数。

具体来说，如果人类偏好偏向于两个潜在输出中的一个 $y_1$ 相对于 $y_2$ ，我们可以使用以下的二元交叉熵损失函数来直接优化语言模型 $\pi$ ：
$L(\pi) = - \sum_{(x, y_1, y_2) \in D} \left[ p(y_1 \succ y_2 | x) \log \pi(y_1 | x) + (1 - p(y_1 \succ y_2 | x)) \log (1 - \pi(y_1 | x)) \right]$
其中， $p(y_1 \succ y_2 | x)$

最低0.47元/天解锁文章