强化学习(DDPG)

DDPG——深度确定性策略梯度

核心思想:使用深度神经网络来近似表示策略函数和价值函数,策略网络用于输出确定性动作,价值网络用语评估状态-动作对的值。DDPG通过最大化累计期望回报来更新策略网络参数,通过最小化估计值与目标值之间的差来更新价值网络参数。

伪代码:

随机初始化critic网络和actor网络的权重\theta^{Q}\theta^{\mu };初始化目标critic网络和目标actor网络中的权重\theta ^{Q^{'}}\leftarrow \theta ^{Q}\theta ^{\mu ^{'}}\leftarrow \theta ^{\mu };初始化回放护眼存区R

for episode=1, M do

        为动作探索初始化一个随机过程N(例如高斯)

        获取初始化的观测状态s_{1}

        for t=1, T do

                选择动作a_{t}=\mu \left ( s_{t}|\theta ^{\mu } \right )+N_{t},引入随机噪声,是为了保证探索能力

                执行动作a_{t},获得观测奖励r_{t}和新的状态s_{t}

                将经验值\left ( s_{t}, a_{t}, r_{t}, s_{t+1} \right )存入回放缓存区R

                从回放缓存区R中采样一批大小为N的样本数据\left ( s_{t}, a_{t}, r_{t}, s_{t+1} \right )

                设置y_{i}=r_{i}+\gamma Q^{'}\left ( s_{i+1}, \mu^{'} \left (s_{i+1}|\theta ^{\mu ^{'}} \right )|\theta ^{Q^{'}} \right )

                通过使损失最小化更新critic网络参数:L= \frac{1}{N}\sum_{i}^{}\left ( y_{i} -Q\left ( s_{i},a_{i}|\theta ^{Q} \right )\right )^{2}

                通过样本策略梯度来更新acrtor网络参数:

                \triangledown _{\theta ^{\mu }}J=\frac{1}{N}\sum_{i}^{}\triangledown _{a}Q\left ( s,a |\theta ^{Q}\right )|_{s=s_{i},a=\mu \left ( s_{i} \right )}\triangledown _{\theta ^{\mu }}\mu \left ( s|\theta ^{Q} \right )|_{s_{i}}

                更新目标网络:

        ​​​​​​​        \theta ^{Q^{'}}\leftarrow \tau \theta ^{Q}+\left ( 1-\tau \right )\theta ^{Q^{'}}

        ​​​​​​​        \theta ^{\mu^{'}}\leftarrow \tau \theta ^{\mu }+\left ( 1-\tau \right )\theta ^{\mu ^{'}}

        end for

end for

DDPG与PPO不一样在于:PPO输出的是一个策略,即概率分布,而DDPG输出的是一个动作

DDPG算法可能会遇到估计偏差的问题,通常是由于它在初始价值函数和策略函数的近似时产生的,这种估计偏差可能会导致算法高估某些动作的价值,从而影响学习到的策略的质量。

        

  • 10
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值