强化学习（DDPG）

最新推荐文章于 2024-05-07 21:52:57 发布

胡萝拔贝贝

最新推荐文章于 2024-05-07 21:52:57 发布

阅读量232

点赞数 10

分类专栏：强化学习文章标签：深度学习 python 神经网络

本文链接：https://blog.csdn.net/weixin_42209537/article/details/136145590

版权

强化学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

DDPG——深度确定性策略梯度

核心思想：使用深度神经网络来近似表示策略函数和价值函数，策略网络用于输出确定性动作，价值网络用语评估状态-动作对的值。DDPG通过最大化累计期望回报来更新策略网络参数，通过最小化估计值与目标值之间的差来更新价值网络参数。

伪代码：

随机初始化critic网络和actor网络的权重 $\theta^{Q}$ 、 $\theta^{\mu }$ ；初始化目标critic网络和目标actor网络中的权重 $\theta ^{Q^{'}}\leftarrow \theta ^{Q}$ ， $\theta ^{\mu ^{'}}\leftarrow \theta ^{\mu }$ ；初始化回放护眼存区R

for episode=1, M do

为动作探索初始化一个随机过程N（例如高斯）

获取初始化的观测状态 $s_{1}$

for t=1, T do

选择动作 $a_{t}=\mu \left ( s_{t}|\theta ^{\mu } \right )+N_{t}$ ，引入随机噪声，是为了保证探索能力

执行动作 $a_{t}$ ，获得观测奖励 $r_{t}$ 和新的状态 $s_{t}$

将经验值 $\left ( s_{t}, a_{t}, r_{t}, s_{t+1} \right )$ 存入回放缓存区R

从回放缓存区R中采样一批大小为N的样本数据 $\left ( s_{t}, a_{t}, r_{t}, s_{t+1} \right )$

设置 $y_{i}=r_{i}+\gamma Q^{'}\left ( s_{i+1}, \mu^{'} \left (s_{i+1}|\theta ^{\mu ^{'}} \right )|\theta ^{Q^{'}} \right )$

通过使损失最小化更新critic网络参数： $L= \frac{1}{N}\sum_{i}^{}\left ( y_{i} -Q\left ( s_{i},a_{i}|\theta ^{Q} \right )\right )^{2}$

通过样本策略梯度来更新acrtor网络参数：

$\triangledown _{\theta ^{\mu }}J=\frac{1}{N}\sum_{i}^{}\triangledown _{a}Q\left ( s,a |\theta ^{Q}\right )|_{s=s_{i},a=\mu \left ( s_{i} \right )}\triangledown _{\theta ^{\mu }}\mu \left ( s|\theta ^{Q} \right )|_{s_{i}}$

更新目标网络：

$\theta ^{Q^{'}}\leftarrow \tau \theta ^{Q}+\left ( 1-\tau \right )\theta ^{Q^{'}}$

$\theta ^{\mu^{'}}\leftarrow \tau \theta ^{\mu }+\left ( 1-\tau \right )\theta ^{\mu ^{'}}$

end for

DDPG与PPO不一样在于：PPO输出的是一个策略，即概率分布，而DDPG输出的是一个动作

DDPG算法可能会遇到估计偏差的问题，通常是由于它在初始价值函数和策略函数的近似时产生的，这种估计偏差可能会导致算法高估某些动作的价值，从而影响学习到的策略的质量。

胡萝拔贝贝

关注

10
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
强化学习（DDPG）

核心思想：使用深度神经网络来近似表示策略函数和价值函数，策略网络用于输出确定性动作，价值网络用语评估状态-动作对的值。DDPG通过最大化累计期望回报来更新策略网络参数，通过最小化估计值与目标值之间的差来更新价值网络参数。DDPG算法可能会遇到估计偏差的问题，通常是由于它在初始价值函数和策略函数的近似时产生的，这种估计偏差可能。DDPG与PPO不一样在于：PPO输出的是一个策略，即概率分布，而DDPG输出的是一个动作。初始化目标critic网络和目标actor网络中的权重。，从而影响学习到的策略的质量。
复制链接

扫一扫