在强化学习中,我们的目标是最大化某一输入下的预期奖励,这个预期值是对策略下所有可能回答奖励的期望。由于实际中无法枚举所有可能的回答,我们通过采样生成多个回答,然后利用这些样本来近似这一期望。
具体来说,对于输入 (s)(一个问题),模型根据策略生成多个回答 (a_1, a_2, \dots, a_G)。每个回答 (a_i) 都有一个生成概率 (\pi_\theta(a_i \mid s)) 以及对应的奖励(或者归一化后的相对优势) (\tilde{r}_i)。理论上,整个问题的梯度应为:
∇ θ J = E a ∼