摘要
根据人类反馈进行强化学习 (RLHF) 一直是最新一代生成式人工智能模型成功的关键。为了应对经典 RLHF pipline的复杂性,诸如直接偏好优化 (DPO) 之类的直接对齐算法已作为替代方法出现。尽管 DPO 解决了与标准 RLHF 设置相同的目标,但这两种方法之间存在不匹配。标准 RLHF 在特定的token级 MDP 中部署强化学习,而 DPO 则衍生为强盗问题,其中模型的整个响应被视为单臂。在这项工作中,我们纠正了这个差异,首先我们从理论上证明,我们可以在token级 MDP 中导出 DPO 作为通用逆 Q-learning 算法,它满足 Bellman 方程。 利用我们的理论结果,我们提供了三个具体的实证见解。首先,我们表明,由于其token级别的解释,DPO 能够执行某种类型的信用分配。接下来,我们证明在token级别公式下,基于经典搜索的算法(例如最近应用于语言生成空间的 MCTS)相当于 DPO 策略上基于可能性的搜索。根据经验,我们表明简单的集束搜索比基本 DPO 策略产生了有意义的改进。最后,我们展示了参考策略的选择如何导致训练期间隐性奖赏下降。最后,我们讨论了我们工作的应用,包括多轮对话、推理、agent应用和多模型系统的端到端训练。
1.介绍
人类反馈强化学习 (RLHF) 已成为将大型语言模型 (LLM) 与人类意图结合起来的事实上的方法,因为它在从摘要到指令遵循的广泛应用中取得了成功。通过从人类token的比较中学习奖赏函数,RLHF 能够捕获实际情况下无法描述的复杂目标。继 (Ziegler et al., 2020) 的成功之后,许多工作都考虑使用强化学习(RL)技术从各个领域的大型模型中进行训练和采样的新算法。特别是直接对齐方法,例如直接偏好优化(DPO),由于其简单性而在最近几个月获得了关注。直接对齐方法不是学习奖赏函数然后使用强化学习,而是使用上下文老虎机设置中奖赏函数和策略之间的关系来同时优化两者。此后,类似的想法已应用于视觉语言和图像生成模型。
虽然这种直接对齐方法据称与使用 PPO 等策略梯度算法的经典 RLHF 方法具有相同的工作原理,但仍然存在根本差异。例如,经典的 RLHF 方法在最终状态下通过稀疏奖赏来优化token级价值函数。另一方面,DPO 仅在上下文强盗环境中运行,将整个响应视为单臂。这是因为尽管事实上token是一次生成一个,但是众所周知,密集的奖赏在强化学习社区中是有益的。虽然直接比对算法很有趣,但目前尚不清楚它们是否可以像典型 RLHF 流程中使用的底层 RL 算法一样应用于序列。
在这项工作中,我们通过使用通常形式的二分类偏好反馈在大型语言模型中存在的token级 MDP 设置中导出 DPO 来纠正这种差异。然后,我们表明 DPO 训练隐式地学习了token级别的奖赏函数,其中语言模型 logits 定义了最佳 Q 函数,或预期的未来总奖赏。然后,我们证明 DPO 能够灵活地对token MDP 内任何可能的密集奖赏函数进行建模。
根据经验,我们使用理论推导来证明我们认为对社区有用的三个实际见解。首先,我们表明,尽管 DPO 模型的隐式奖赏是作为上下文强盗派生的,但其隐式奖赏具有每个token的解释。其次,我们证明对 DPO 模型的似然搜索类似于目前工作在解码过程中对奖赏函数的搜索。最后,我们确定初始策略和参考分布的选择对于确定训练期间隐式奖赏的轨迹非常重要。
2.相关工作
使用偏好反馈使策略与人类意图保持对齐的问题一直是强化学习中长期研究的问题。虽然 RLHF 的主要关注点最初是控制,但随着 Ziegler et al. (2020) 的成功,它最近被语言建模甚至视觉社区广泛采用。RLHF 中的大多数工作都使用策略梯度方法来优化学习奖赏函数,这种方法仅在生成结束时使用。 众所周知,此类方法不稳定且难以扩展,同时理论上存在上下文强盗和强化学习之间不寻常的交叉点。 为此,人们开发了几种直接对齐方法,通过从偏好数据中学习策略来简化 RLHF 流程,而无需中间奖赏函数。然而,这些方法仅仅作为上下文强盗而衍生,留下了一些我们试图解决的理论和实践问题。
首先,虽然直接对齐方法将LLM视为强盗,但先前的工作已经证明可以使用密集奖赏甚至近似动态规划。此外,使用偏好的遗憾模型,对比偏好学习能够对一般 MDP 使用直接对齐,而不是 RLHF 中使用的特定token MDP。我们的工作展示了如何将 DPO 解释为优化每个token的奖赏函数,该函数在实践中仅限于最优优势函数系列。
其次,如果DPO不学习奖赏函数,我们还能使用它的奖赏或价值吗? 先前的工作已经考虑使用 best-of-K 或树搜索来与价值函数对齐。使用隐式奖赏,我们表明似然搜索会对直接对齐产生类似的解决方案。
我们的工作建立在最大熵强化学习和逆强化学习的基础知识之上。特别是,我们在固定策略下利用 Q 函数和奖赏函数之间的映射,正如 Garg et al. (2022) 在逆 RL 中首次完成的那样。 与我们的工作高度相关,Hejna & Sadigh (2024) 利用这种关系来实现 RLHF,但仅用于传统衰减 MDP 设置中的控制,而Cundy & Ermon (2023) 考虑了如何用LLM表示模仿学习中的 Q 函数。
3.Preliminaries
在本节中,我们首先为大语言模型定义每个token的 MDP,然后描述它与经典 RLHF 方法和直接对齐算法(特别是 DPO)的关系。我们在典型的 RLHF 设置中进行操作,其中我们有一个包含语言提示 x \textbf x x 和目标答案 y \textbf y y 的数据集 D = { ( x ( i ) , y ( i ) ) } i = 1 N \mathcal D=\{(\textbf x^{(i)}, \textbf y^{(i)})\}^N_{i=1} D={(x(i),y(i))}i=1N,其中每条数据都可以从一个固定离散词表 A \mathcal A A中单独分解为一系列token,例如 x = ( x 0 , . . . , x m ) \textbf x =(x_0, ..., x_m) x=(x0,...,xm)。在本节中,我们将使用 x , y \textbf x, \textbf y x,y 表示法表示上下文强盗框架,其中整个响应 y \textbf y y 是动作,但会使用来自 RL 文献中的状态 s \textbf s s和动作 a \textbf a a符号来描述token级别的序列。
3.1 The Token-level MDP for Large Language Models
我们将token级别 MDP 定义为元组
M
=
(
S
,
A
,
f
,
r
,
ρ
0
)
\mathcal M = (\mathcal S, \mathcal A, f, r, ρ_0)
M=(S,A,f,r,ρ0),其中状态空间
S
\mathcal S
S 由迄今为止生成的所有token 组成(即
s
t
=
{
x
0
,
.
.
.
,
x
m
,
y
0
,
.
,
y
t
}
\textbf s_t = \{x_0, ..., x_m, y_0, . , y_t\}
st={x0,...,xm,y0,.,yt}) ,动作空间是token
A
\mathcal A
A 的词表。动态
f
f
f 是token间的确定性转移模型
f
(
s
,
a
)
=
s
∣
a
f(\textbf s, \textbf a) = \textbf s|\textbf a
f(s,a)=s∣a,其中
∣
|
∣ 是串联。初始状态分布
ρ
0
ρ_0
ρ0 是提示
x
x
x 上的分布,其中初始状态
s
0
\textbf s_0
s0 由来自
x
\textbf x
x 的token组成。在 RLHF 中,奖赏函数是从人类对响应之间偏好的反馈中学习的,我们将使用token级别的轨迹
τ
τ
τ 来表示。正如通常所做的那样,我们假设偏好轨迹从相同的状态(初始提示)开始,并以最终状态(EOS token)结束,并且在最终状态之后的奖赏为零。在这个token级别的MDP中,对应的Bradley-Terry偏好模型为:
p
∗
(
τ
w
⪰
τ
l
)
=
e
x
p
(
∑
i
=
1
N
r
(
s
i
w
,
a
i
w
)
)
e
x
p
(
∑
i
=
1
N
r
(
s
i
w
,
a
i
w
)
)
+
e
x
p
(
∑
i
=
1
M
r
(
s
i
l
,
a
i
l
)
)
.
(1)
p^*(\tau^w⪰\tau^l)=\frac{exp(\sum^N_{i=1}r(\textbf s^w_i,\textbf a^w_i))}{exp(\sum^N_{i=1}r(\textbf s^w_i,\textbf a^w_i))+exp(\sum^M_{i=1}r(\textbf s^l_i,\textbf a^l_i))}.\tag{1}
p∗(τw⪰τl)=exp(∑i=1Nr(siw,aiw))+exp(∑i=1Mr(sil,ail))exp(∑i=1Nr(siw,aiw)).(1)
这给出了长度为
N
N
N 的“获胜”轨迹
τ
w
τ^w
τw 优于长度为
M
M
M 的“失败”轨迹
τ
l
τ^l
τl 的概率。现在我们已经定义了token级别 MDP,我们可以展示它与经典和直接对齐 RLHF 方法的关系。
3.2 The Classical RLHF Methods
大多数经典的 RLHF 方法首先从人类对提示和响应对
(
x
,
y
w
,
y
l
)
(\textbf x, \textbf y^w, \textbf y^l)
(x,yw,yl) 的反馈中学习奖赏函数,然后使用基于策略梯度的方法对其进行优化,例如具有如下KL约束的熵奖励的 PPO:
m
a
x
π
θ
E
a
t
∼
π
θ
(
⋅
∣
s
t
)
[
∑
t
=
0
T
(
r
(
s
t
,
a
t
)
+
β
l
o
g
π
r
e
f
(
a
t
∣
s
t
)
⏟
K
L
p
e
n
a
l
t
y
+
β
H
(
π
θ
)
∣
s
0
∼
ρ
(
s
0
)
)
]
(2)
\mathop{max}\limits_{\pi_{\theta}}\mathbb E_{a_t\sim\pi_{\theta}(\cdot|\textbf s_t)}[\sum^T_{t=0}(r(\textbf s_t,\textbf a_t)+\underbrace{\beta log\pi_{ref}(\textbf a_t|\textbf s_t)}_{KL~penalty}+\beta\mathcal H(\pi_{\theta})|\textbf s_0\simρ(\textbf s_0))]\tag{2}
πθmaxEat∼πθ(⋅∣st)[t=0∑T(r(st,at)+KL penalty
βlogπref(at∣st)+βH(πθ)∣s0∼ρ(s0))](2)
其中
π
r
e
f
π_{ref}
πref 是参考策略,通常来自有监督微调,学习的策略不应显着偏离。然而,在经典的 RLHF 方法中,奖赏函数是通过偏好模型作为上下文强盗来学习的
p
∗
(
y
w
⪰
y
l
)
=
e
x
p
r
(
x
,
y
w
)
e
x
p
r
(
x
,
y
w
)
+
e
x
p
r
(
x
,
y
l
)
p^*(\textbf y^w⪰\textbf y^l)=\frac{exp~r(\textbf x, \textbf y^w)}{exp~r(\textbf x, \textbf y^w)+exp~r(\textbf x, \textbf y^l)}
p∗(yw⪰yl)=exp r(x,yw)+exp r(x,yl)exp r(x,yw)
因此这仅适用于最后一个操作的最后时刻,其中
a
\textbf a
a 是 EOS。实际上,token级 PPO 中使用的实际奖励是
r
(
s
t
,
a
t
)
=
{
β
l
o
g
π
r
e
f
(
a
t
∣
s
t
)
,
i
f
s
t
+
1
i
s
n
o
t
t
e
r
m
i
n
a
l
r
(
x
,
y
)
+
β
l
o
g
π
r
e
f
(
a
t
∣
s
t
)
,
i
f
s
t
+
1
=
y
i
s
t
e
r
m
i
n
a
l
(3)
r(\textbf s_t, \textbf a_t)=\begin{cases} \beta log\pi_{ref}(\textbf a_t|\textbf s_t), & if~\textbf s_{t+1}~is~not~terminal\\ r(\textbf x,\textbf y)+\beta log\pi_{ref}(\textbf a_t|\textbf s_t), & if~\textbf s_{t+1}=\textbf y~is~terminal \end{cases}\tag{3}
r(st,at)={βlogπref(at∣st),r(x,y)+βlogπref(at∣st),if st+1 is not terminalif st+1=y is terminal(3)
在最大熵公式中。这导致了一个有趣的矛盾,即奖励函数
r
r
r 被视为强盗,但实际的 RL 价值函数和优化实际上是针对每个token完成的。
3.3 Direct Preference Optimization
与经典的 RLHF 不同,DPO 源自 Rafailov et al. (2023),完全保持在上下文强盗设置内,并且还使用第 3.2 节中基于强盗的偏好模型。为了避免对 RL 算法的需求,DPO 使用众所周知的闭式决来解决等式 (2) 中提出的 RL 上下文强盗版本的 RL 问题:
π
∗
(
y
∣
x
)
=
1
Z
(
x
)
π
r
e
f
(
y
∣
x
)
e
r
(
x
,
y
)
\pi^*(\textbf y|\textbf x)=\frac{1}{Z(\textbf x)}\pi_{ref}(\textbf y|\textbf x)e^{r(\textbf x,\textbf y)}
π∗(y∣x)=Z(x)1πref(y∣x)er(x,y)
其中
π
∗
π^*
π∗ 是最优策略,
Z
(
x
)
Z(\textbf x)
Z(x) 是对其进行归一化的配分函数。DPO 重新排列该方程以求解奖赏为
r
(
x
,
y
)
=
β
l
o
g
π
∗
(
y
∣
x
)
−
β
l
o
g
π
r
e
f
(
y
∣
x
)
−
Z
(
x
)
r(\textbf x,\textbf y) = βlog~π^*(\textbf y|\textbf x) − βlog~π_{ref}(\textbf y|\textbf x) − Z(\textbf x)
r(x,y)=βlog π∗(y∣x)−βlog πref(y∣x)−Z(x)。将这种关系代入用于奖赏建模的标准二进制交叉熵损失函数中,会产生 DPO 损失方程,因为配分函数
Z
(
x
)
Z(\textbf x)
Z(x) 从 Bradley Terry 模型中取消。
L
D
P
O
(
π
θ
;
π
r
e
f
)
=
−
E
(
x
,
y
w
,
y
l
)
∼
D
[
l
o
g
σ
(
β
l
o
g
π
θ
(
y
w
∣
x
)
π
r
e
f
(
y
w
∣
x
)
−
β
l
o
g
π
θ
(
y
l
∣
x
)
π
r
e
f
(
y
l
∣
x
)
)
]
(4)
\mathcal L_{DPO}(\pi_{\theta};\pi_{ref})=-\mathbb E_{(\textbf x,\textbf y^w,\textbf y^l)\sim\mathcal D}[log\sigma(\beta log\frac{\pi_{\theta}(\textbf y^w|\textbf x)}{\pi_{ref}(\textbf y^w|\textbf x)}-\beta log\frac{\pi_{\theta}(\textbf y^l|\textbf x)}{\pi_{ref}(\textbf y^l|\textbf x)})]\tag{4}
LDPO(πθ;πref)=−E(x,yw,yl)∼D[logσ(βlogπref(yw∣x)πθ(yw∣x)−βlogπref(yl∣x)πθ(yl∣x))](4)
为了简洁起见,我们使用
σ
σ
σ 来表示sigmoid函数。在下一节中,我们将展示 DPO 的替代推导如何在token级 MDP 中进行优化。
4.Theoretical Insights
在本节中,我们将探讨理论上如何将 DPO 融入到token级 MDP 中,并探讨这样做的后果。 首先,我们在 3.1 节的假设下提供了 DPO 的token级推导。接下来,我们证明即使在token MDP 中,DPO 也能够在等式1的多步Bradley Terry偏好模型中拟合任何奖赏函数。最终,这表明 DPO 可以用于更多序列优化任务,例如多轮交互甚至多模态生成。
4.1 DPO as a Q-function in the Token Level MDP
RL in the Token-level MDP。虽然 DPO 的原始推导依赖于
Q
∗
(
x
,
y
)
=
r
(
x
,
y
)
Q^*(\textbf x, \textbf y) = r(\textbf x, \textbf y)
Q∗(x,y)=r(x,y) 这一事实,但这种关系在token级 MDP 中并不成立。为了解决这个问题,我们需要开发新的数学结果,使我们能够将token级 Bradley Terry 模型等式 (1) 中的奖赏函数
r
r
r 和对应的最优策略
π
∗
π^*
π∗ 联系起来。在一般最大熵 RL 设置中,等式 (2) 的定点解由 (Ziebart, 2010) 给出:
π
∗
(
a
t
∣
s
t
)
=
e
(
Q
∗
(
s
t
,
a
t
)
−
V
∗
(
s
t
)
)
/
β
(5)
\pi^*(\textbf a_t|\textbf s_t)=e^{(Q^*(\textbf s_t,\textbf a_t)-V^*(\textbf s_t))/\beta}\tag{5}
π∗(at∣st)=e(Q∗(st,at)−V∗(st))/β(5)
其中
π
∗
(
a
∣
s
)
π^*(\textbf a|\textbf s)
π∗(a∣s) 是最优策略,
Q
∗
(
s
,
a
)
Q^*(\textbf s, \textbf a)
Q∗(s,a) 是最优
Q
Q
Q 函数,它对
π
∗
π^*
π∗ 下
(
s
,
a
)
(\textbf s, \textbf a)
(s,a) 的未来总奖赏进行建模。最优值函数
V
∗
\textbf V^*
V∗ 是
Q
∗
\textbf Q^*
Q∗ 的函数:
V
∗
(
s
t
)
=
β
l
o
g
∫
A
e
Q
∗
(
s
t
,
a
)
/
β
d
a
(6)
V^*(\textbf s_t)=\beta log\int_{\mathcal A}e^{Q^*(\textbf s_t,\textbf a)/\beta}d\textbf a\tag{6}
V∗(st)=βlog∫AeQ∗(st,a)/βda(6)
使得策略
π
∗
π^*
π∗ 积分为 1。不幸的是,与强盗设置不同,这种关系没有为我们提供有关单个状态动作对的奖励函数
r
r
r 的具体信息,因为最优策略针对
Q
Q
Q 估计的未来总回报进行优化。为此,我们需要考虑
Q
∗
Q^*
Q∗ 和
r
r
r 之间的关系。
From
r
r
r to
Q
∗
Q^*
Q∗。未来回报与当前时刻之间的关系由贝尔曼方程捕获,任何有效的
Q
Q
Q 函数都满足该方程。我们将奖赏
r
r
r 下的最优策略
π
∗
π^*
π∗ 写如下,并带有 KL 散度惩罚:
Q
∗
(
s
t
,
a
t
)
=
{
r
(
s
t
,
a
t
)
+
β
l
o
g
π
r
e
f
(
a
t
∣
s
t
)
+
V
∗
(
s
t
+
1
)
,
i
f
s
t
+
1
i
s
n
o
t
t
e
r
m
i
n
a
l
r
(
s
t
,
a
t
)
+
β
l
o
g
π
r
e
f
(
a
t
∣
s
t
)
,
i
f
s
t
+
1
i
s
t
e
r
m
i
n
a
l
(7)
Q^*(\textbf s_t,\textbf a_t)=\begin{cases} r(\textbf s_t,\textbf a_t)+\beta log\pi_{ref}(\textbf a_t|\textbf s_t)+V^*(\textbf s_{t+1}), & if~\textbf s_{t+1}~is~not~terminal\\ r(\textbf s_t,\textbf a_t)+\beta log\pi_{ref}(\textbf a_t|\textbf s_t), & if~\textbf s_{t+1}~is~terminal \end{cases}\tag{7}
Q∗(st,at)={r(st,at)+βlogπref(at∣st)+V∗(st+1),r(st,at)+βlogπref(at∣st),if st+1 is not terminalif st+1 is terminal(7)
然后我们可以根据奖赏重新排列贝尔曼方程以获得最佳 Q 函数。Garg et al. (2022) 在模仿学习中首先探索了这种关系,以及后来 Hejna & Sadigh (2024) 的基于偏好的强化学习。然而,这些工作需要使用衰减因子
γ
<
1
γ < 1
γ<1,这在 RLHF 中通常不使用。在附录中,我们证明了以下引理,该引理表明这种关系在token MDP 中确实也是一对一的。
Lemma 1。在中性假设下,奖赏函数
r
(
s
t
,
a
t
)
r(\textbf s_t, \textbf a_t)
r(st,at) 和token MDP 中相应的最优
Q
Q
Q 函数
Q
∗
(
s
t
,
a
t
)
Q^*(\textbf s_t, \textbf a_t)
Q∗(st,at) 之间存在相互映射。
这给我们带来了一个相当有趣的结论——LLM 始终是token MDP 中某些奖赏函数的最佳soft Q 函数。考虑任何输出 logits
l
θ
l_θ
lθ 和温度参数
β
β
β 的 LLM。按照惯例,我们将采样策略
π
π
π 设为由温度参数 β 调制的 token 上的 softmax——这正是等式 (5),其中
Q
∗
=
l
θ
Q^* = l_θ
Q∗=lθ,因为最优状态价值函数
V
∗
V^*
V∗ 正是
β
l
o
g
Z
(
s
t
)
β log~Z(\textbf s_t)
βlog Z(st) ,标准化分布。相应的奖赏函数可能是不平滑或表现不佳的。值得注意的是,由于 softmax,logits 具有自由参数。虽然这个自由参数会导致每个后面的参数产生相同的最优策略,但这意味着值的序列可能不平滑。接下来的问题就变成了如何微调 LLM,使其成为符合人类偏好的针对奖赏函数
r
r
r 的最优
Q
Q
Q 函数。 为此,我们将在token MDP 中完成 DPO 的推导。
DPO learns our best estimate of Q∗。现在我们已经在
r
r
r 和
Q
∗
Q^*
Q∗ 之间建立了双映射,根据等式1中的BT模型,我们可以导出 DPO 的token级版本,以将由语言模型表示的
Q
Q
Q 函数引起的隐式奖赏与奖赏的最佳估计值对齐。为此,我们需要首先用
Q
Q
Q 函数
Q
∗
Q^*
Q∗ 表示奖赏总和,然后用策略
π
∗
π^*
π∗ 表示。我们通过反转等式7中的贝尔曼方程来完成第一步,并将其代入轨迹
τ
=
s
1
,
a
1
,
.
.
.
,
a
T
−
1
,
s
T
τ={\textbf s_1,\textbf a_1,...,\textbf a_{T−1},\textbf s_T}
τ=s1,a1,...,aT−1,sT 上的奖赏总和中。
∑
t
=
0
T
r
(
s
t
,
a
t
)
=
∑
t
=
0
T
−
1
(
Q
∗
(
s
t
,
a
t
)
−
β
l
o
g
π
r
e
f
(
a
t
∣
s
t
)
−
V
∗
(
s
t
+
1
)
)
=
\sum^T_{t=0}r(\textbf s_t,\textbf a_t)=\sum^{T-1}_{t=0}(Q^*(\textbf s_t,\textbf a_t)-\beta~log~\pi_{ref}(\textbf a_t|\textbf s_t)-V^*(\textbf s_{t+1}))=
t=0∑Tr(st,at)=t=0∑T−1(Q∗(st,at)−β log πref(at∣st)−V∗(st+1))=
=
Q
∗
(
s
0
,
a
0
)
−
β
l
o
g
π
r
e
f
(
a
0
∣
s
0
)
+
∑
t
=
1
T
−
1
(
Q
∗
(
s
t
,
a
t
)
−
V
∗
(
s
t
)
−
β
l
o
g
π
r
e
f
(
a
t
∣
s
t
)
)
=Q^*(\textbf s_0,\textbf a_0)-\beta~log~\pi_{ref}(\textbf a_0|\textbf s_0)+\sum^{T-1}_{t=1}(Q^*(\textbf s_t,\textbf a_t)-V^*(\textbf s_t)-\beta~log~\pi_{ref}(\textbf a_t|\textbf s_t))
=Q∗(s0,a0)−β log πref(a0∣s0)+t=1∑T−1(Q∗(st,at)−V∗(st)−β log πref(at∣st))
等式由
V
∗
(
s
T
)
=
0
V^*(\textbf s_T ) = 0
V∗(sT)=0 得出,并重新排列总和以独立 $t = 0¥。由于
V
∗
V^*
V∗ 完全根据方程 (6) 用
Q
∗
Q^*
Q∗ 和
β
β
β 表示,因此我们将序列的回报总和用
Q
∗
Q^*
Q∗ 表示。接下来,我们将
Q
∗
Q^*
Q∗ 换成
π
∗
π^*
π∗。我们可以将等式 (5) 进行对数运算,以线性化为
β
l
o
g
π
∗
(
a
t
∣
s
t
)
=
Q
∗
(
s
t
,
a
t
)
−
V
∗
(
s
t
)
βlog~π^*(\textbf a_t|\textbf s_t) = Q^*(\textbf s_t, \textbf a_t) − V^*(\textbf s_t)
βlog π∗(at∣st)=Q∗(st,at)−V∗(st)。这相当于说语言模型概率只是
l
θ
=
Q
∗
l_θ = Q^*
lθ=Q∗ 和温度
β
β
β 上的 softmax。继续上面的内容,通过这个替换,我们得到
=
Q
∗
(
s
0
,
a
0
)
+
β
l
o
g
π
r
e
f
(
a
0
∣
s
0
)
+
∑
t
=
1
T
−
1
β
l
o
g
π
∗
(
a
t
∣
s
t
)
π
r
e
f
(
a
t
∣
s
t
)
=
V
∗
(
s
0
)
+
∑
t
=
1
T
−
1
β
l
o
g
π
∗
(
a
t
∣
s
t
)
π
r
e
f
(
a
t
∣
s
t
)
=Q^*(\textbf s_0,\textbf a_0)+\beta log~\pi_{ref}(\textbf a_0|\textbf s_0)+\sum^{T-1}_{t=1}\beta log\frac{\pi^*(\textbf a_t|\textbf s_t)}{\pi_{ref}(\textbf a_t|\textbf s_t)}=V^*(\textbf s_0)+\sum^{T-1}_{t=1}\beta log\frac{\pi^*(\textbf a_t|\textbf s_t)}{\pi_{ref}(\textbf a_t|\textbf s_t)}
=Q∗(s0,a0)+βlog πref(a0∣s0)+t=1∑T−1βlogπref(at∣st)π∗(at∣st)=V∗(s0)+t=1∑T−1βlogπref(at∣st)π∗(at∣st)
其中最后一步是添加和减去
V
∗
(
s
0
)
V^*(\textbf s_0)
V∗(s0) 并再次应用替换的结果。现在,这种以最优策略表示的奖赏总和可以直接代入式(1)中的偏好模型,其中
V
∗
(
s
0
)
V^*(s_0)
V∗(s0) 项将被取消,就像原始 DPO 中的
Z
(
x
)
Z(x)
Z(x) 一样推导假设
τ
w
τ^w
τw 和
τ
l
τ^l
τl 从相同的状态
s
0
\textbf s_0
s0 开始,给出了策略诱导的偏好模型:
p
π
∗
(
τ
w
⪰
τ
l
)
=
σ
(
∑
t
=
0
N
−
1
β
l
o
g
π
∗
(
a
t
w
∣
s
t
w
)
π
r
e
f
(
a
t
w
∣
s
t
w
)
−
∑
t
=
0
M
−
1
β
l
o
g
π
∗
(
a
t
l
∣
s
t
l
)
π
r
e
f
(
a
t
l
∣
s
t
l
)
)
(8)
p_{\pi^*}(\tau^w⪰\tau^l)=\sigma(\sum^{N-1}_{t=0}\beta log\frac{\pi^*(\textbf a^w_t|\textbf s^w_t)}{\pi_{ref}(\textbf a^w_t|\textbf s^w_t)}-\sum^{M-1}_{t=0}\beta log\frac{\pi^*(\textbf a^l_t|\textbf s^l_t)}{\pi_{ref}(\textbf a^l_t|\textbf s^l_t)})\tag{8}
pπ∗(τw⪰τl)=σ(t=0∑N−1βlogπref(atw∣stw)π∗(atw∣stw)−t=0∑M−1βlogπref(atl∣stl)π∗(atl∣stl))(8)
为了导出最终的 DPO 损失函数,我们可以采用数据集
p
D
p_{\mathcal D}
pD 的经验偏好模型与学习策略
p
π
θ
p_{π_θ}
pπθ 隐含的偏好模型之间的 KL 散度,
D
K
L
(
p
D
∣
∣
p
π
θ
)
\mathbb D_{KL}(p_{\mathcal D}||p_{π_θ})
DKL(pD∣∣pπθ)。这得到:
L
(
π
θ
,
D
)
=
−
E
(
τ
w
,
τ
l
)
∼
D
[
l
o
g
σ
(
(
∑
t
=
0
N
−
1
β
l
o
g
π
∗
(
a
t
w
∣
s
t
w
)
π
r
e
f
(
a
t
w
∣
s
t
w
)
)
−
(
∑
t
=
0
M
−
1
β
l
o
g
π
∗
(
a
t
l
∣
s
t
l
)
π
r
e
f
(
a
t
l
∣
s
t
l
)
)
)
]
(9)
\mathcal L(\pi_{\theta},\mathcal D)=-\mathbb E_{(\tau_w,\tau_l)\sim\mathcal D}[log~\sigma((\sum^{N-1}_{t=0}\beta log\frac{\pi^*(\textbf a^w_t|\textbf s^w_t)}{\pi_{ref}(\textbf a^w_t|\textbf s^w_t)})-(\sum^{M-1}_{t=0}\beta log\frac{\pi^*(\textbf a^l_t|\textbf s^l_t)}{\pi_{ref}(\textbf a^l_t|\textbf s^l_t)}))]\tag{9}
L(πθ,D)=−E(τw,τl)∼D[log σ((t=0∑N−1βlogπref(atw∣stw)π∗(atw∣stw))−(t=0∑M−1βlogπref(atl∣stl)π∗(atl∣stl)))](9)
在下一节中,我们将证明 DPO 可以学习token级 MDP 中的任何密集奖赏函数。
4.2 Token-Level DPO Can Parameterize Any Dense Reward Function.
在上一节中,我们使用奖赏函数和token级 MDP 中唯一可用的最优 Q 函数之间的双映射导出了 DPO。DPO 的另一种观点将其视为限制学习的奖赏函数,使其属于最优优势函数
A
∗
(
s
,
a
)
=
Q
∗
(
s
,
a
)
−
V
∗
(
s
)
A^*(\textbf s, \textbf a) = Q^*(\textbf s, \textbf a) − V^*(\textbf s)
A∗(s,a)=Q∗(s,a)−V∗(s) 类,其中最优策略为很容易根据方程(5)获得。在这里,我们表明这种限制并不限制我们可以表示的奖赏函数的类别。我们首先将 Rafailov et al. (2023) 中使用的等价性定义扩展到更广泛的基于潜力的奖赏塑造函数:
Definition 1。如果存在潜在函数
Φ
(
s
)
Φ(\textbf s)
Φ(s),则两个奖励函数
r
(
s
t
,
a
t
)
r(\textbf s_t, \textbf a_t)
r(st,at) 和
r
′
(
s
t
,
a
t
)
r'(\textbf s_t, \textbf a_t)
r′(st,at) 是等价的,使得
r
′
(
s
t
,
a
t
)
=
r
(
s
t
,
a
t
)
+
Φ
(
s
t
+
1
)
−
Φ
(
s
t
)
r'(\textbf s_t, \textbf a_t) = r(\textbf s_t, \textbf a_t) + Φ(\textbf s_{t +1}) − Φ(\textbf s_t)
r′(st,at)=r(st,at)+Φ(st+1)−Φ(st)。
在 Ng et al. (1999) 的开创性工作中,作者证明了根据定义 1 定义的两个等效奖赏函数具有相同的最优策略。通过对等式(5)中的最优策略固定点进行对数线性化并代入等式(7)中的贝尔曼方程,我们有:
β
l
o
g
π
∗
(
a
t
∣
s
t
)
π
r
e
f
(
a
t
∣
s
t
)
=
r
(
s
t
,
a
t
)
+
V
∗
(
s
t
+
1
)
−
V
∗
(
s
t
)
.
(10)
\beta log\frac{\pi^*(\textbf a_t|\textbf s_t)}{\pi_{ref}(\textbf a_t|\textbf s_t)}=r(\textbf s_t,\textbf a_t)+V^*(\textbf s_{t+1})-V^*(\textbf s_t).\tag{10}
βlogπref(at∣st)π∗(at∣st)=r(st,at)+V∗(st+1)−V∗(st).(10)
这正是最优优势函数,其中
V
∗
V^*
V∗ 直接遵循潜在塑造函数的形式。正如同期工作所指出的那样,利用优势作为奖赏可以保持最优策略。然而,与之前的工作不同的是,我们证明这种重新参数化也会导致与 r 相同的偏好分布。
Theorem 1。给定参考策略
π
r
e
f
π_{ref}
πref 和参数
β
>
0
β > 0
β>0,与等式(1)中的 Plackett-Luce(和 Bradley-Terry)模型一致的所有奖赏类别都可以用以下形式的重参数化表示:
r
(
s
,
a
)
=
β
l
o
g
π
(
s
∣
a
)
−
β
l
o
g
π
r
e
f
(
s
∣
a
)
(11)
r(\textbf s,\textbf a)=\beta log~\pi(\textbf s|\textbf a)-\beta log~\pi_{ref}(\textbf s|\textbf a)\tag{11}
r(s,a)=βlog π(s∣a)−βlog πref(s∣a)(11)
在token MDP 中,其中所有终端状态的
V
∗
(
s
t
)
=
0
V^*(\textbf s_t) = 0
V∗(st)=0。
Proof。上面我们推导了重参数化下最优策略的不变性。通过遵循上一节中用于得出方程(8)的相同步骤,可以证明偏好模型是不变的。
有趣的是,在实践中,潜在函数
Φ
(
s
t
)
Φ(\textbf s_t)
Φ(st) 表示语言模型 logits 中的自由参数。沿所有 logits 的相等移动会产生相同的策略,但得倒不同的 Q 函数和相应的奖赏。上述定理证明,所有这些都属于同一等价类,并导致相同的偏好集。
此外,该定理意味着我们可以使用 DPO 来学习任何每个token奖赏函数的最优策略,前提是偏好query从相同状态开始并以最终状态结束。此外,DPO 总是适合某些负责信用分配的奖赏的最优优势函数。因此,训练数据决定了学习到的偏好与真实奖赏的对应程度。这与估计奖赏函数然后另外采用一些政策改进机制的方法形成对比。哪种算法表现更好在很大程度上仍然是一个悬而未决的或经验性的问题。
上述推导将语言模型转换为离散token级 MDP 中的 Q 函数。虽然这种解释通常不适用于连续空间,但我们可以将许多结果扩展到其他特殊结构的 MDP,例如扩散中存在的 MDP。更彻底的治疗请参见附录 B。
5.Practial Insights
在本节中,我们讨论理论分析的实证意义。首先,我们定性地证明 DPO 可以学习每个token的信用分配。接下来,我们使用前一节的推导将引导解码和基于搜索的算法(例如 MCTS)连接到 DPO 策略上基于似然的搜索,并根据经验验证这些结果。最后,(第一次)我们从数学上解释了在研究和行业界观察到的 DPO 训练期间似然降低的现象。
对于所有实证评估,我们使用 Pythia 2.8B 模型和 Reddit TL;DR 摘要数据集。除非另有说明,我们使用原始公共 DPO 实现中的默认超参数。