机器学习与深度学习系列连载：第三部分强化学习（十六) 深度强化学习- Pathwise Derivative策略梯度

最新推荐文章于 2022-03-15 22:17:16 发布

人工智能插班生

最新推荐文章于 2022-03-15 22:17:16 发布

阅读量2.7k

点赞数 4

分类专栏：深度学习神经网络强化学习强化学习

本文链接：https://blog.csdn.net/dukuku5038/article/details/84924046

版权

深度学习同时被 3 个专栏收录

53 篇文章 9 订阅

订阅专栏

神经网络

51 篇文章 1 订阅

订阅专栏

强化学习

18 篇文章 2 订阅

订阅专栏

Pathwise Derivative策略梯度

我们在使用Critic（评估价值）的过程中，传统的方法只是给一个评估的值得大小，我们利用评估的值，采取增加倾向于评估值大的action的概率。

在这里插入图片描述

但是如果Critic不但给出对于action的评价，而且给出actor下一步的建议呢。（就像老师不但把我们作业批改了，然后还给出了怎么做好作业的建议，而传统的Critic知只是一个能给我们批改作业的老师，但是没有给出建议）

Deepmind 大神David Silver 给了我们一个“既能批改作业，又能给我们指导未来的老师”的算法. Pathwise derivative policy gradient

1. Pathwise derivative policy gradient 算法思路

思路是建立一个actor的network，它能够选择Q-learning 中的最大值
在这里插入图片描述
具体算法结构如下：

1.我们首先固定 $Q^{\pi}$
2.不断更新actor 找到 $Q^{\pi}(s,a)$ 的最大值
3.然后我们利用以往的经历更新 $Q^{\pi}$ ，回到1

在这里插入图片描述

大道至简，大道至同，这个算法看起来有浓浓的GAN的味道。GAN以后我们会开专栏单独讲，大家仔细品味。

2. Pathwise derivative policy gradient 算法

我们首先看下Q-learning：
在这里插入图片描述

Pathwise Derivative Policy Gradient 其实就是把Q-learning稍微改动就可以得到（增加π策略网络）

3. Pathwise derivative policy gradient 算法和GAN的比较

我们粗略比较下 Pathwise derivative policy gradient和GAN的相同点和不同点。
在这里插入图片描述
图片来自：David Pfau, Oriol Vinyals, “Connecting Generative Adversarial Networks and Actor-Critic Methods”, arXiv preprint, 2016

我会在对抗网络的专栏中，专门为大家介绍GAN模型。

论文参考：
David Silver, Guy Lever, Nicolas Heess, Thomas Degris, Daan Wierstra, Martin Riedmiller, “Deterministic Policy Gradient Algorithms”, ICML, 2014

Timothy P. Lillicrap, Jonathan J. Hunt, Alexander Pritzel, Nicolas Heess,
Tom Erez, Yuval Tassa, David Silver, Daan Wierstra, “CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING”, ICLR, 2016

本专栏图片、公式很多来自David Silver主讲的UCL-Course强化学习视频公开课和台湾大学李宏毅老师的深度强化学习课程,在这里，感谢这些经典课程，向他们致敬！

人工智能插班生

关注

4
点赞
踩
12

收藏

觉得还不错? 一键收藏
2
评论
机器学习与深度学习系列连载：第三部分强化学习（十六) 深度强化学习- Pathwise Derivative策略梯度

Pathwise Derivative策略梯度我们在使用Critic（评估价值）的过程中，传统的方法只是给一个评估的值得大小，我们利用评估的值，采取增加倾向于评估值大的action的概率。但是如果Critic不但给出对于action的评价，而且给出actor下一步的建议呢。（就像老师不但把我们作业批改了，然后还给出了怎么做好作业的建议，而传统的Critic知只是一个能给我们批改作业的老师，但...
复制链接

扫一扫