融合模仿学习与奖励优化：一种创新的模型训练范式-CSDN博客

本文链接：https://blog.csdn.net/weixin_41544125/article/details/145209945

好的，让我重新为你详细解读一下文献 [167] 中提出的引入模仿学习思想的奖励模型训练方法。

训练数据：模仿学习的训练数据包含输入和相应的期望输出，这些期望输出通常是由专家生成的正确答案。模型的目标是学习从输入到输出的映射，以便在类似的输入上生成类似的输出。
自回归语言模型损失：在这种方法中，每一对输出在输出上引入了自回归的语言模型损失，使得模型能够模仿出首选的输出。

文献中给出的奖励模型损失函数如下：
$L (ψ) = - λ E (x, y w, y l) \sim Dr m [l o g σ (r (x, y w) - r (x, y l))] + β r m E (x, y w) \sim Dr m [l o g (r' (x, y w))]$

符号说明：
- ψ：奖励模型的参数。
- λ：调节奖励模型损失的系数。
- Drm：训练数据集的经验分布。
- σ：sigmoid 函数。
- r：奖励模型，用于预测输入提示 x 和输出 y 所对应的单一标量奖励值。
- r′：与 r 相同的模型，只有最顶层的线性层不同，该线性层的维度与词汇表的大小相对应。
- βrm：调节语言模型损失影响的系数。
- x：输入提示。
- yw：首选样本的输出。
- yl：非首选样本的输出。
损失函数解析：
- 第一项：
  $- λ E (x, y w, y l) \sim Dr m [l o g σ (r (x, y w) - r (x, y l))]$
  - 这一项与之前的奖励模型损失类似，通过计算首选样本和非首选样本的奖励值之差，并经过 sigmoid 函数和 log 函数处理后，衡量模型对样本对的奖励预测是否符合预期。
  - 通过最小化这一项，模型能够逐渐学习到如何根据输入提示准确地预测不同输出的奖励值。
- 第二项：
  $β r m E (x, y w) \sim Dr m [l o g (r' (x, y w))]$
  - 这一项引入了自回归语言模型损失，用于在给定输入提示 x 和首选输出 yw 的条件下，计算生成给定输出的似然概率。
  - 通过最小化这一项，模型能够更好地学习从输入到输出的映射，从而在类似的输入上生成类似的输出。