大模型对齐方法笔记三：不需要参考模型的对齐方法ORPO和SimPO

最新推荐文章于 2025-03-04 15:18:12 发布

chencjiajy

最新推荐文章于 2025-03-04 15:18:12 发布

阅读量1.8k

点赞数 23

分类专栏：深度学习文章标签：笔记

本文链接：https://blog.csdn.net/beingstrong/article/details/139333543

版权

深度学习专栏收录该内容

53 篇文章

订阅专栏

ORPO

ORPO出自2024年3月的论文《ORPO: Monolithic Preference Optimization without Reference Model》，其将对齐融入到SFT过程中减少对齐成本。
在这里插入图片描述

论文先指出在SFT过程中，增加模型想要输出的概率的同时不经意地增加了不想要输出的概率（如下图示意），作者认为SFT对不想要输出的缺少惩罚。

在这里插入图片描述

对于一个输入序列x，生成长度为m个token的输出序列y的平均对数似然如下式：
$\log P_{\theta}(y|x) = \frac{1}{m} \sum^m_{t=1} \log P_{\theta}(y_t|x, y_{<t})$
对于一个输入序列x，生成输出序列y的几率如下式（一个事件的几率（odds）是指该事件发生的概率与该事件不发生的概率的比值）：
$\boldsymbol{\operatorname{odds}}_{\theta}(y|x) = \frac{P_{\theta}(y|x)}{1- P_{\theta}(y|x)}$
定义 $\mathbf{O R}_{\theta}(y_w, y_l)$ 为被选择输出 $y_w$ 和被拒绝输出 $y_l$ 输出的几率比值，用来表明参数为 $\theta$ 的模型对于给定输入x相对于输出 $y_l$ 有多倾向于生成输出 $y_w$ 。
$\mathbf{O R}_\theta\left(y_w, y_l\right)=\frac{\boldsymbol{\operatorname { o d ds }}_\theta\left(y_w \mid x\right)}{\boldsymbol{\operatorname {odds }}_\theta\left(y_l \mid x\right)}$
ORPO的目标函数由SFT损失和相对比例损失两部分构成：
$\mathcal{L}_{ORPO} = \mathbb{E}_{(x, y_w, y_l)}[ \mathcal{L}_{SFT} + \lambda \cdot \mathcal{L}_{OR} ]$

$\mathcal{L}_{OR} = -\log \sigma \left( \log \frac{\boldsymbol{\operatorname { o d ds }}_\theta\left(y_w \mid x\right)}{\boldsymbol{\operatorname {odds }}_\theta\left(y_l \mid x\right)} \right)$

$\begin{aligned} \mathcal{L}_{SFT} & =-\frac{1}{m} \sum_{k=1}^m \log P\left(\mathbf{x}^{(k)}, \mathbf{y}^{(k)}\right) \\ & =-\frac{1}{m} \sum_{k=1}^m \sum_{i=1}^{|V|} y_i^{(k)} \cdot \log \left(p_i^{(k)}\right) \end{aligned}$

SimPO

SimPO出自2024年5月的论文《SimPO: Simple Preference Optimization with a Reference-Free Reward》。它使用隐式奖励公式直接与生成指标对齐，因此可以省略参考模型。

在这里插入图片描述

SimPO先对DPO进行分析，基于其缺点提出SimPO思路。DPO使用带最优策略的闭式表达式来对奖励函数r进行重新参数化：
$y)=\beta \log \left(\frac{\pi_{\theta}(y \mid x)}{\pi_{\text {ref }}(y \mid x)}\right)+\beta \log (Z(x)) \qquad (1)$
式中的 $\pi_{\theta}$ 是策略模型， $\pi_{\text{ref}}$ 是参考策略， $Z (x)$ 是配分函数。将上述奖励函数整合到Bradley-Terry (BT)排序目标 $p(y_w \succ y_l |x) = \sigma(r_{\phi}(x, y_w) - r_{\phi}(x, y_l))$ 后，DPO可以将目标函数表示成不需要奖励模型的如下形式：
$\mathcal{L}_{\text{DPO}}(\pi_{\theta};\pi_{\text{ref}}) = - \mathbb{E}_{(x, y_w, y_l) \sim \mathcal{D}} \left[ \sigma \left( \beta \log \left(\frac{\pi_{\theta}(y_w \mid x)}{\pi_{\text {ref }}(y_w \mid x)}\right) - \beta \log \left(\frac{\pi_{\theta}(y_l \mid x)}{\pi_{\text {ref }}(y_l \mid x)}\right) \right) \right] \qquad (2)$
SimPO的作者认为DPO使用的隐式奖励表达式有两个缺点：1. 在训练过程中需要参考模型 $\pi_{\text{ref}}$ 导致额外的内存和计算开销；2. 训练过程中优化的奖励与推理时的生成指标存在差异性，在生成阶段策略模型 $\pi_{\theta}$ 被用来生成满足最大平均对数似然的序列（如下式表示）。在DPO中，对于任意三元组 $x, y_w, y_l)$ 满足奖励排序 $r(x, y_w) > r(x, y_l)$ 不一定意味着似然排序 $p_{\theta}(y_w |x) >p_{\theta}(y_l|x)$ 同样满足，实际上DPO的留出数据集中只有大约50%的三元组满足这个条件。
$p_{\theta}(y|x) = \frac{1}{|y|} \log \pi_{\theta}(y|x) =\frac{1}{|y|} \sum_{i=1}^{|y|} \log \pi_{\theta}\left(y_{i} \mid x, y_{<i}\right) \qquad (3)$
基于这两个缺点，SimPO使用上述公式(3)来替换DPO的奖励形式，这样就与生成过程中的似然指标是对齐的：
$r_{\text{SimPO}}(x, y) = \frac{\beta}{|y|} \log \pi_{\theta}(y|x) =\frac{\beta}{|y|} \sum_{i=1}^{|y|} \log \pi_{\theta}\left(y_{i} \mid x, y_{<i}\right) \qquad (4)$
上式中的 $\beta$ 是用来控制奖励差异大小的常量，SimPO作者发现根据输出长度对奖励进行归一化非常关键，如果移除掉长度归一化会导致模型倾向于生成更长但质量更低的序列。

SimPO对于Bradley-Terry (BT)排序目标引入了一个差额项 $\gamma >0$ ，用来保证获胜输出的奖励 $r(x, y_w)$ 超过失败输出的奖励 $r(x, y_l)$ 至少 $\gamma$ ，作者在实践时发现一开始增加差额项可以提高生成质量，但是当差额项太大时就会使得输出质量下降。
$p(y_w \succ y_l |x) = \sigma(r_{\phi}(x, y_w) - r_{\phi}(x, y_l) - \gamma) \qquad (5)$
将公式(4)代入到公式(5)之后就可得到了SimPO的目标：
$\mathcal{L}_{\text{SimPO}}(\pi_{\theta}) = - \mathbb{E}_{(x, y_w, y_l) \sim \mathcal{D}} \left[\log \sigma \left( \frac{\beta}{|y_w|} \log \pi_{\theta}(y_w \mid x) - \frac{\beta}{|y_l|} \log \pi_{\theta}(y_l \mid x) - \gamma \right) \right] \qquad (2)$
下图是论文中给出的与其他对齐方法目标函数超参范围的对比。
在这里插入图片描述