DDPG笔记(归纳总结)

(之前的笔记,发一下ovo)

Deep Deterministic Policy Gradient:DDPG就是用了确定性策略在DPG基础上结合DQN的特点建议改进出来的算法

大体上理解:

深度强化学习-DDPG算法原理和实现 - 简书

【强化学习】DDPG(Deep Deterministic Policy Gradient)算法详解_shura的技术空间-CSDN博客_ddpg

DQN可以应对高维输入,而对高维的动作输出则束手无策。随后,同样是DeepMind提出的DDPG,则可以解决有着高维或者说连续动作空间的情境。它包含一个策略网络用来生成动作,一个价值网络用来评判动作的好坏,并吸取DQN的成功经验,同样使用了样本池和固定目标网络,是一种结合了深度网络的Actor-Critic方法。

原文如下:

1.DDPG本质上是一个AC方法(Actor-Critic):

这里写图片描述

Actor(μ)和Critic(Q)都有target-net和eval-net。我们需要强调一点的事,我们只需要训练动作估计网络和状态估计网络的参数,而动作现实网络和状态现实网络的参数是由前面两个网络每隔一定的时间复制过去的。

2.PG(Policy Gradient): by  深度强化学习-Policy Gradient基本实现 - 简书

  1. 算法输出的是动作的概率,而不是Q值。
  2. 损失函数的形式为:loss= -log(prob)*vt 
  3. 需要一次完整的episode才可以进行参数的更新

(log(prob)表示在状态 s 对所选动作 a 的吃惊度, 如果概率越小, 反向的log(prob) 反而越大. 而vt代表的是当前状态s下采取动作a所能得到的奖励,这是当前的奖励和未来奖励的贴现值的求和。也就是说,我们的策略梯度算法必须要完成一个完整的eposide才可以进行参数更新,而不是像值方法那样,每一个(s,a,r,s')都可以进行参数更新。如果在prob很小的情况下, 得到了一个大的Reward, 也就是大的vt, 那么-log(prob)*vt就更大, 表示更吃惊, (我选了一个不常选的动作, 却发现原来它能得到了一个好的 reward, 那我就得对我这次的参数进行一个大幅修改)。

3.DQN:by- 实战深度强化学习DQN-理论和实践 - 简书

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值