强化学习(9):TRPO、PPO以及DPPO算法:https://blog.csdn.net/zuzhiang/article/details/103650805
DPPO深度强化学习算法实现思路(分布式多进程加速): https://blog.csdn.net/weixin_43145941/article/details/116764574
[DPPO]:再看我的影分身之术(附代码及代码分析):https://zhuanlan.zhihu.com/p/111346592
PPO
TRPO
PPO(Proximal Policy Optimization) 是一种解决 PG 算法中学习率不好确定的问题的算法,因为如果学习率过大,则学出来的策略不易收敛, 反之,如果学习率太小,则会花费较长的时间。PPO 算法利用新策略和旧策略的比例,从而限制了新策略的更新幅度,让 PG 算法对于稍微大一点的