- 原文题目:
(一) Deterministic Policy Gradient Algorithms
(二) Continuous control with deep reinforcement learning- 作者:David Silver、Guy Lever、Nicolas Heess、Thomas Degris、Daan Wierstra、Martin Riedmiller
- 发表时间和期刊(或会议):2014, ICML
- 文章下载:DPG下载, DDPG下载
- 主要内容:DPG:提出一种确定性策略梯度方法,可用于连续动作强化学习问题。DDPG:DPG的神经网络版本,并做了一些其他的改进。
DRL经典文献阅读(二):确定性策略梯度(DPG+DDPG)【附代码】
本文深入探讨确定性策略梯度(DPG)和深度确定性策略梯度(DDPG)算法,重点讲解它们在解决连续动作强化学习问题中的应用。DPG利用确定性策略改进Q-learning,而DDPG则采用神经网络实现策略和价值函数的估计。文中还介绍了这两个算法的神经网络更新机制,并提供了DDPG的代码解读。
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



