ddpg解决swing-up问题,超详细附代码

标签: 机器学习

一. 什么是DDPG(deep deterministic policy gradient)

DDPG在continuous control with deep reinforcement learning论文中提出并作出了详细的解释

在论文中比较重要的信息有以下:

  1. DQN无法处理高维输出,并且只能输出离散值,因为一些动作维度结构可能包括一些信息,所以在连续控制问题上可能表现很糟糕。而DDPG可以将DQN的维度变低维,并且可以输出连续值
    例如:一个关节可以取值{-k,0,k}三个值,如果有七个关节,那么DQN的输出将是 3 7 = 2187 3^7=2187 37=2187个单元,训练效果将大打折扣。而对于DDPG来说,输出层是七个关节的取值,输出维度大大降低。
  2. DQN的两大创新分别是记忆库和时间差异副本(eval网络与target网络异步更新),DDPG有actor网络用于根据状态选择动作,critic网络对状态与动作的选择进行打分,对于每个actor网络和critic网络都有一个时间差异副本,故DDPG一共有四个网络
  3. 在选取状态输入的时候注意选取的变量量纲是否一致,如果量纲不同,取值范围不同等问题将会影响网络学习效率(在这里被坑过),解决方法是可以使用batch normalization维护平均值和方差,对状态和网络的所有层进行归一化。
  4. 对eval网络与target网络的异步更新建议用 θ ′ = τ θ + ( 1 − τ ) θ ′ \theta^{&#x27;}=\tau\theta+(1-\tau)\theta^{&#x27;} θ=τθ+(1τ)θ, τ &lt; &lt; 1 \tau&lt;&lt;1 τ<<1
  5. DDPG算法如下图:

在这里插入图片描述

算法流程:
(1). 初始化 a c t o r 与 e v a l actor与eval actoreval网络 Q ( s , a ∣ θ Q ) Q(s,a|\theta^{Q}) Q(s,aθQ) μ ( s ∣ θ μ ) \mu(s|\theta^{\mu}) <

  • 2
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值