RL(十四)深度确定性策略梯度算法

前面我们讲了深度强化学习,虽然强化学习和深度学习得到了一个很好的结合,但是他们在实际的使用中还是有一些限制的,比如算法模型容易过估计、无法处理连续动作控制任务。尤其是无法使用连续动作这个缺点,极大的限制了DQN的使用。所以本节就来学习可以处理连续动作的深度确定性策略梯度算法(DDPG)。

1、背景介绍

在2014年首次提出了确定性策略梯度算法,并证明了该算法对连续动作任务的有效性。该算法在策略梯度算法的基础上,算法模拟的输入为状态空间,输出不再是每个动作的概率,而是该状态空间对应的具体动作。
接着,TP Lillicrap等利用DPG算法能够解决高维连续动作空间的优点,同时结合DQN算法能够把高维的状态空间作为输入的优点,提出基于演员-评论家框架的DDPG算法。

下面按着策略梯度、确定性策略梯度、深度确定性策略梯度来依次讲解。

1.1确定性策略梯度(DPG)

前面我们讲过策略梯度,所以这里直接从确定性策略梯度开始学习。
策略梯度算法的最大缺点就是策略评估通常效率比较低下:通过策略梯度算法学习得到的随机策略后,每一个时间步个体需要根据该最优策略梯度概率分布函数进行动作采样,从而获得具体的动作值,而针对每一时间步个体对高维的动作空间进行采样将会耗费大量的计算资源。

之前一直以为确定性的策略梯度算法是不存在的,直到后来D.Silver通过严密的数学推导证明确定性策略梯度算法是存在的。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值