DRL经典文献阅读(一):策略梯度理论(Policy Gradient, PG)
将强化学习目标函数记为ρ\rhoρ,策略的参数记为θ\thetaθ。在策略梯度中,策略的参数通过梯度提升方式进行更新,更新部分与梯度成成比:∇θ≈α∂ρ∂θ(1)\nabla\theta\approx \alpha\frac{\partial\rho}{\partial\theta}\tag{1}∇θ≈α∂θ∂ρ(1)智能体的目标函数,常用的定义方式有两种。第一种是多步取均值的方式ρ(π)=limn→∞1nE{r1+r2+⋯+rn∣π}=∑sdπ(s)∑aπ(s,a)Rsa(2)\rho(\pi
复制链接