强化学习笔记------第五章----近端优化策略(PPO)(超详细)
本章数学问题太过复杂,建议去看看李宏毅老师这部分的内容,在此只贴出部分关于PPO的知识总结。基于on-policy的policy gradient有什么可改进之处?或者说其效率较低的原因在于?经典policy gradient的大部分时间花在sample data处,即当我们的agent与环境做了交互后,我们就要进行policy model的更新。但是对于一个回合我们仅能更新policy model一次,更新完后我们就要花时间去重新collect data,然后才能再次进行如上的更新。所以我们的可以自







