前情回顾
在上文 一文搞懂策略梯度(Policy gradient)算法(一) 中,我们主要介绍了PG算法的目标函数以及策略梯度。
可知,在PG算法中,用 ∇ J ( θ t ) \nabla{J(\theta_t)} ∇J(θt) 的近似来更新策略网络参数 θ \theta θ,从而增大目标函数。在策略梯度计算公式的最后推导中,我们得到策略梯度 ∇ J ( θ t ) \nabla{J(\theta_t)} ∇J(θt) 的无偏估计

同时,留下了一个尾巴——如何得到动作价值函数 Q π Q_{\pi} Qπ?
为了解决这个问题,本文将分别介绍 REINFORCE 算法和 Actor-Critic 算法,并进一步得到改进版的带基线的策略梯度算法,即 REINFORCE with baseline 以及 advantage actor-critic(A2C)。
REINFORCE
用一句话来概括: REINFORCE 进一步对 Q π Q_{\pi} Qπ 做蒙特卡洛近似,将其替换为回报 u u u。
蒙特卡洛的哲学思想——没有模型,上数据。
在智能体和环境的交互中,定义 t t t 时刻的折扣回报为:

动作价值为回报的条件期望:

因此,可以使用蒙特卡洛近似上面的条件期望——
从时刻 t t t 开始,有 u t = ∑ k = t n γ k − t . r k u_t=\sum_{k=t}^n\gamma^{k-t}.r_k ut=∑k=tnγk−t.rk。这里的 u t u_t ut 是随机变量 U t U_t Ut 的观测值,因此 u t u_t ut 是上面公式中期望的蒙特卡洛近似,可以使用 u t u_t