【深度强化学习】(3) Policy Gradients 模型解析，附Pytorch完整代码

最新推荐文章于 2025-03-21 09:39:04 发布

立Sir

最新推荐文章于 2025-03-21 09:39:04 发布

阅读量4.7k

点赞数 8

分类专栏：深度强化学习文章标签： pytorch python 强化学习深度强化学习策略梯度

本文链接：https://blog.csdn.net/dgvv4/article/details/129453051

版权

文章介绍了基于策略的深度强化学习，特别是策略梯度法，作为对基于值函数的深度强化学习（如DQN）的补充，解决了连续动作任务和探索性能低等问题。通过策略网络建模并用梯度更新参数，策略梯度法能优化智能体的策略。文中还提供了一个使用OpenAIGym库实现的示例，展示了如何运用策略梯度法解决CartPole游戏问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大家好，今天和各位分享一下基于策略的深度强化学习方法，策略梯度法是对策略进行建模，然后通过梯度上升更新策略网络的参数。我们使用了 OpenAI 的 gym 库，基于策略梯度法完成了一个小游戏。完整代码可以从我的 GitHub 中获得：

https://github.com/LiSir-HIT/Reinforcement-Learning/tree/main/Model

1. 基于策略的深度强化学习

针对智能体在大规模离散动作下无法建模的难题，在基于值函数的深度强化学习中，利用神经网络对 Q 值函数近似估计，使深度学习与强化学习得到完美融合。

但是基于值函数的深度强化学习有一定的不足之处：

(1) 无法处理连续动作的任务。DQN 系列的算法可以较好地解决强化学习中大规模离散动作空间的任务，但在连续动作的任务中，难以实现利用深度神经网络对所有状态-动作的 Q 值函数近似表达。

(2) 无法处理环境中状态受到限制的问题。在基于值函数深度强化学习更新网络参数时，损失函数会依赖当前状态和下一个状态的值函数，当智能体在环境中观察的状态有限或建模受到限制时，就会导致实际环境中两个不同的状态有相同的价值函数，进而导致损失函数为零，出现梯度消失的问题。

(3) 智能体在环境中的探索性能较低。基于值函数的深度强化学习方法中，目标值都是从动作空间中选取一个最大价值的动作，导致智能体训练后的策略具有确定性，而面对一些需要随机策略进行探索的问题时，该方法就无法较好地解决。

由于基于值函数的深度强化学习存在上述的一些局限性，需要新的方法来解决这些问题，于是基于策略的深度强化学习被提出。该方法中将智能体当前的策略参数化，并且使用梯度的方法进行更新。

2. 策略梯度法

强化学习中策略梯度算法是对策略进行建模，然后通过梯度上升更新策略网络的参数。Policy Gradients 中无法使用策略的误差来构建损失函数，因为参数更新的目标是最大化累积奖励的期望值，所以策略更新的依据是某一动作对累积奖励的影响，即增加使累积回报变大的动作的概率，减弱使累积回报变小的动作的概率。

下图代表智能体在当前策略下，完成一个回合后构成的状态、动作序列 $r=\left \{ s_1,a_1,s_2,a_2,s_2,...s_T,a_T \right \}$ ，其中，Actor 是策略网络。每个回合结束后的累计回报为每个状态下采取的动作的奖励之和：