强化学习入门8—深入理解DDPG

最新推荐文章于 2024-08-06 17:34:44 发布

小菜羊~

最新推荐文章于 2024-08-06 17:34:44 发布

阅读量3.9k

点赞数 5

分类专栏：强化学习文章标签：强化学习神经网络深度学习

本文链接：https://blog.csdn.net/sherlocksy/article/details/119490694

版权

DDPG是一种解决连续控制问题的强化学习算法，结合了深度学习和确定性策略梯度。它采用Actor-Critic结构，通过神经网络学习确定性策略，并利用经验回放和目标网络进行稳定训练。算法流程包括策略和价值网络的更新，以及对连续动作空间的有效探索。

摘要由CSDN通过智能技术生成

文章目录

Deep Deterministic Policy Gradient

本文是强化学习入门系列的第八篇，前面我们讲Actor-Critic时提到了DDPG。DDPG是google DeepMind团队提出的一种用于输出确定性动作的算法，它解决了Actor-Critic 神经网络每次参数更新前后都存在相关性，导致神经网络只能片面的看待问题这一缺点。同时也解决了DQN不能用于连续性动作的缺点。

Deep Deterministic Policy Gradient

简介

DDPG即深度确定性策略梯度算法。也是一种可以解决连续性控制问题的方法。属于model-free、off-policy、policy-based的方法。原文传送：

DDPG我们可以拆开来看，Deep，是说明需要神经网络。Deterministic的意思就是最终确定地只输出一个动作。Policy Gradient我们已经知道是策略梯度算法。DDPG可以看成是DQN的扩展版，不同的是，以往的DQN在最终输出的是一个动作向量，对于DDPG是最终确定地只输出一个动作。而且，DDPG让 DQN 可以扩展到连续的动作空间。

网络结构

DDPG的结构形式类似Actor-Critic。DDPG可以分为策略网络和价值网络两个大网络。DDPG延续DQN了固定目标网络的思想，每个网络再细分为目标网络和现实网络。不过目标网络的更新上有些不同。下面详细分析。

先来看策略网络，也就是Actor。Actor输出的是一个确定性的动作，产生这个确定性动作的网络定义为 $a=\mu_{\theta}(s)$ 。以往的policy gradient采取的是随机策略，每一次获取动作都需要对当前的最优策略的分布进行采样，而DDPG采取的则是确定性策略，直接通过函数 $\mu$ 确定。Actor的估计网络就是 $\mu_{\theta}(s)$ ，