【深度强化学习】(6) PPO 模型解析，附Pytorch完整代码

最新推荐文章于 2025-04-12 17:10:59 发布

立Sir

最新推荐文章于 2025-04-12 17:10:59 发布

阅读量5.1w

点赞数 119

分类专栏：深度强化学习文章标签： pytorch 深度学习 python 强化学习深度强化学习

本文链接：https://blog.csdn.net/dgvv4/article/details/129496576

版权

大家好，今天和各位分享一下深度强化学习中的近端策略优化算法（proximal policy optimization，PPO），并借助 OpenAI 的 gym 环境完成一个小案例，完整代码可以从我的 GitHub 中获得：

https://github.com/LiSir-HIT/Reinforcement-Learning/tree/main/Model

1. 算法原理

PPO 算法之所以被提出，根本原因在于 Policy Gradient 在处理连续动作空间时 Learning rate 取值抉择困难。Learning rate 取值过小，就会导致深度强化学习收敛性较差，陷入完不成训练的局面，取值过大则导致新旧策略迭代时数据不一致，造成学习波动较大或局部震荡。除此之外，Policy Gradient 因为在线学习的性质，进行迭代策略时原先的采样数据无法被重复利用，每次迭代都需要重新采样；

同样地置信域策略梯度算法（Trust Region Policy Optimization，TRPO）虽然利用重要性采样（Important-sampling）、共轭梯度法求解提升了样本效率、训练速率等，但在处理函数的二阶近似时会面临计算量过大，以及实现过程复杂、兼容性差等缺陷。

PPO 算法具备 Policy Gradient、TRPO 的部分优点，采样数据和使用随机梯度上升方法优化代替目标函数之间交替进行，虽然标准的策略梯度方法对每个数据样本执行一次梯度更新，但 PPO 提出新目标函数，可以实现小批量更新。

鉴于上述问题，该算法在迭代更新时，观察当前策略在 t 时刻智能体处于状态 s 所采取的行为概率 $\pi (a_t |s_t)$ ，与之前策略所采取行为概率 $\pi_{\theta old} (a_t | s_t)$ ，计算概率的比值来控制新策略更新幅度，比值 $r_t$ 记作：