- 原文题目:Policy Gradient Methods for Reinforcement Learning with Function Approximation
- 作者:Richard S. Sutton, David McAllester, Satinder Singh, Yishay Mansour
- 发表时间:2000年
- 主要内容:强化学习中使用函数近似的策略梯度方法。得出了策略梯度的表达式,进一步推导了使用函数近似情况下的计算问题,最后证明这样的方法可以收敛到局部最优。
DRL经典文献阅读(一):策略梯度理论(Policy Gradient, PG)
于 2022-10-17 19:15:32 首次发布