机器学习与深度学习系列连载: 第三部分 强化学习(十六) 深度强化学习- Pathwise Derivative策略梯度

Pathwise Derivative策略梯度

我们在使用Critic(评估价值)的过程中,传统的方法只是给一个评估的值得大小,我们利用评估的值,采取增加倾向于评估值大的action的概率。

在这里插入图片描述

但是如果Critic不但给出对于action的评价,而且给出actor下一步的建议呢。(就像老师不但把我们作业批改了,然后还给出了怎么做好作业的建议,而传统的Critic知只是一个能给我们批改作业的老师,但是没有给出建议)

Deepmind 大神David Silver 给了我们一个“既能批改作业,又能给我们指导未来的老师”的算法. Pathwise derivative policy gradient

1. Pathwise derivative policy gradient 算法思路

思路是建立一个actor的network,它能够选择Q-learning 中的最大值
在这里插入图片描述
具体算法结构如下:
在这里插入图片描述

1.我们首先固定 Q π Q^{\pi} Qπ
2.不断更新actor 找到 Q π ( s , a ) Q^{\pi}(s,a) Qπ(s,a)的最大值
3.然后我们利用以往的经历更新 Q π Q^{\pi} Qπ ,回到1

在这里插入图片描述

大道至简,大道至同,这个算法看起来有浓浓的GAN的味道。GAN以后我们会开专栏单独讲,大家仔细品味。

2. Pathwise derivative policy gradient 算法

我们首先看下Q-learning:
在这里插入图片描述

  • Pathwise Derivative Policy Gradient 其实就是把Q-learning稍微改动就可以得到(增加π策略网络)
    在这里插入图片描述

3. Pathwise derivative policy gradient 算法和GAN的比较

我们粗略比较下 Pathwise derivative policy gradient和GAN的相同点和不同点。
在这里插入图片描述
图片来自:David Pfau, Oriol Vinyals, “Connecting Generative Adversarial Networks and Actor-Critic Methods”, arXiv preprint, 2016

我会在对抗网络的专栏中,专门为大家介绍GAN模型。

论文参考:
David Silver, Guy Lever, Nicolas Heess, Thomas Degris, Daan Wierstra, Martin Riedmiller, “Deterministic Policy Gradient Algorithms”, ICML, 2014

Timothy P. Lillicrap, Jonathan J. Hunt, Alexander Pritzel, Nicolas Heess,
Tom Erez, Yuval Tassa, David Silver, Daan Wierstra, “CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING”, ICLR, 2016

本专栏图片、公式很多来自David Silver主讲的UCL-Course强化学习视频公开课和台湾大学李宏毅老师的深度强化学习课程,在这里,感谢这些经典课程,向他们致敬!

  • 4
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值