DDPG,CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING 论文阅读

DDPG算法是训练一个deterministic policy来处理动作连续的问题,主要是基于DQN的思想,训练一个Q-functon来衡量动作的Q值。一般的DQN方法得到下面这个Q的最优值是很容易的,因为动作是离散的,取对应Q值最大的动作即可。但是在连续动作上就不太好处理了。

 原始的Q-Learning的贝尔曼方程是:

贝尔曼方程可以用来学习最优的Q函数,目标函数为:

 因为连续动作a没法像离散动作那样直接得到Q的最大值,所以训练一个actor a=\mu \left ( s\mid \theta ^{\mu } \right ),让这个actor输出的动作使Q最大。目标函数就变成了:

其中y_{t}如下:

更新时先更新Q网络,再固定Q网络更新actor网络。 

 还有几个tricks:

  • 训练跟DQN一样,使用经验池,一次取一个batch,off-line进行训练。经验池要大一些,可以使得取到的数据不相关。
  • 使用target network,Q网络跟actor都要用,将y_{t}变成
  •  target network的更新是“soft”的,{\theta }'=\tau \theta +\left ( 1-\tau \right ){\theta }',\tau \ll 1,让target network的更新变慢,提高学习的稳定性。
  • 通过在动作上加噪声的方法进行动作的探索,{\mu }'\left ( s_{t} \right )=\mu\left ( s_{t} \mid \theta _{t}^{\mu }\right)+NN是随机噪声。

总体算法流程:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值