[DDPG] Continuous Control with Deep Reinforcement Learning

最新推荐文章于 2024-08-28 08:42:23 发布

超级超级小天才

最新推荐文章于 2024-08-28 08:42:23 发布

阅读量3.4k

点赞数 2

分类专栏：强化学习论文笔记文章标签：算法深度学习人工智能强化学习

本文链接：https://blog.csdn.net/qq_38962621/article/details/117460014

版权

强化学习论文笔记专栏收录该内容

4 篇文章

订阅专栏

论文链接：https://arxiv.org/abs/1509.02971
引用：Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning[J]. arXiv preprint arXiv:1509.02971, 2015.

概述

Deep Deterministic Policy Gradient (DDPG) 是DPG算法加上深度学习的版本，是一个 model-free、off-policy 的 actor-critic 系算法，使用深度神经网络作为函数近似方程，主要的特点是支持高维度的连续的动作空间，这是在DQN算法上的一个主要突破，其实也就是因为是 actor-critic 系的算法，所以支持连续动作空间。

算法

DDPG 算法

主要创新点

也使用了DQN算法中的 replay buffer / experience replay 的技术
创新地使用了Soft Target Update的技术，与DQN中设立了target network，然后阶段性地将policy network的参数直接拷贝给target network的放法不同的是，这里虽然也是为actor和critic都分别设立了一个target版本，但是并不是直接将进行更新的policy版的参数全部直接拷贝给它们，而是使用了一个系数 $\tau$ 来更新参数： $\theta' \leftarrow \tau \theta + (1-\tau)\theta'$ ，且其中 $\tau \ll 1$ ，这样就会将学习到的参数更加soft地拷贝给目标网络，从而极大地提升了训练中的稳定性。
不同于DQN中使用的 $\epsilon$ -greedy的方式平衡exploration和exploitation，DDPG使用的方法是，在选择一个新的动作的时候，给policy函数返回的动作值增加一个噪音： $\mu'(s_t)=\mu(s_t|\theta_t^{\mu})+N$ ，这里的 $N$ 就是一个简单的概率分布，比如高斯分布，而且它的选择是根据不同的环境而设计的。
为了是一套网络结构、算法与超参数适应于不同的实验环境，使用了 batch normalization 的技术，对于每一个batch中的样本进行了normalization，降低了方差。
在论文中所提到的所有实验中，也是使用了同一套网络结构和超参数，从而验证了其稳定性、普适性和一般性