EasyRL 强化学习笔记 9章节（Actor-Critic）

最新推荐文章于 2022-09-18 23:03:46 发布

strawberry47

最新推荐文章于 2022-09-18 23:03:46 发布

阅读量240

点赞数 1

分类专栏：强化学习文章标签： leetcode 算法排序算法

原文链接：https://datawhalechina.github.io/easy-rl/#/

版权

强化学习专栏收录该内容

20 篇文章 11 订阅

订阅专栏

第九章演员-评论家算法

Actor-Critic

演员-评论家算法(Actor-Critic Algorithm)是一种结合策略梯度和时序差分学习的强化学习方法。借助critic进行单步更新。

A3C：Asynchronous Advantage Actor-Critic
A2C：Advantage Actor-Critic

policy gradient：给定同样的action同样的state，可能会有不同的G。
在这里插入图片描述

二者结合 => Actor-Critic

使用 Q-value 替换掉 PG 中的一部分，用价值函数替换baseline。

Advantage Actor-Critic

在这里插入图片描述
估值两个网络 Q-network 和 V-network，风险很大 -> 只估计V(s)，用V表示Q的值。
$\mathrm{r}_{\mathrm{t}}^{\mathrm{n}}+\mathrm{V}^{\pi}\left(\mathrm{s}_{\mathrm{t}+1}^{\mathrm{n}}\right)-\mathrm{V}^{\pi}\left(\mathrm{s}_{\mathrm{t}}^{\mathrm{n}}\right)$

Tips：
① actor和critic的网络可以共享，前面几个layer参数共享
② exploration机制
在这里插入图片描述

A3C

Asynchronous(异步的) Advantage Actor-Critic 一种改进的Actor-Critic方法，通过异步的操作，进行RL模型训练的加速。
在这里插入图片描述
很慢，增加训练速度。同时开多个worker

Pathwise Derivative Policy Gradient

在这里插入图片描述
其为使用 Q-learning 解 continuous action 的方法，也是一种 Actor-Critic 方法。其会对于actor提供value最大的action，而不仅仅是提供某一个action的好坏程度。

Connection with GAN

在这里插入图片描述
Q: 知道 GAN 跟 Actor-Critic 非常像有什么帮助呢？

A: 一个很大的帮助就是 GAN 跟 Actor-Critic 都是以难训练而闻名的。所以在文献上就会收集各式各样的方法，告诉你说怎么样可以把 GAN 训练起来。怎么样可以把 Actor-Critic 训练起来。但是因为做 GAN 跟 Actor-Critic 的人是两群人，所以这篇 paper 里面就列出说在 GAN 上面有哪些技术是有人做过的，在 Actor-Critic 上面，有哪些技术是有人做过的。也许在 GAN 上面有试过的技术，你可以试着应用在 Actor-Critic 上，在 Actor-Critic 上面做过的技术，你可以试着应用在 GAN 上面，看看是否 work。