【深度强化学习】(5) DDPG 模型解析，附Pytorch完整代码

最新推荐文章于 2025-04-03 15:58:41 发布

立Sir

最新推荐文章于 2025-04-03 15:58:41 发布

阅读量5.7w

点赞数 153

分类专栏：深度强化学习文章标签： pytorch python 强化学习深度强化学习 DDPG

本文链接：https://blog.csdn.net/dgvv4/article/details/129479878

版权

本文介绍了深度确定性策略梯度（DDPG）算法的基本原理，它是DQN的一种改进，适用于连续动作空间的无模型强化学习。DDPG采用Actor-Critic框架，利用深度神经网络近似策略和动作值函数，并通过经验回放和双重网络结构提高学习稳定性。文章还提供了DDPG的公式推导、代码实现以及在OpenAIGym的推车游戏中的应用示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大家好，今天和各位分享一下深度确定性策略梯度算法 (Deterministic Policy Gradient，DDPG)。并基于 OpenAI 的 gym 环境完成一个小游戏。完整代码在我的 GitHub 中获得：

https://github.com/LiSir-HIT/Reinforcement-Learning/tree/main/Model

1. 基本原理

深度确定性策略梯度算法是结合确定性策略梯度算法的思想，对 DQN 的一种改进，是一种无模型的深度强化学习算法。

DDPG 算法使用演员-评论家（Actor-Critic）算法作为其基本框架，采用深度神经网络作为策略网络和动作值函数的近似，使用随机梯度法训练策略网络和价值网络模型中的参数。DDPG 算法的原理如下图所示。

DDPG 算法架构中使用双重神经网络架构，对于策略函数和价值函数均使用双重神经网络模型架构（即 Online 网络和 Target 网络），使得算法的学习过程更加稳定，收敛的速度加快。同时该算法引入经验回放机制，Actor 与环境交互生产生的经验数据样本存储到经验池中，抽取批量数据样本进行训练，即类似于 DQN 的经验回放机制，去除样本的相关性和依赖性，使得算法更加容易收敛。

2. 公式推导

为了便于大家理解 DDPG 的推导过程，算法框架如下图所示：

DDPG 共包含 4 个神经网络，用于对 Q 值函数和策略的近似表示。Critic 目标网络用于近似估计下一时刻的状态-动作的 Q 值函数 $Q_{w'}(S_{t+1},\pi _{\theta '}(S_{t+1}))$ ，其中，下一动作值是通过 Actor 目标网络近似估计得到的 $\pi_{\theta' }(S_{t+1})$ 。于是可以得到当前状态下 Q 值函数的目标值：