第九章 演员-评论家算法
Actor-Critic
演员-评论家算法(Actor-Critic Algorithm)
是一种结合策略梯度
和时序差分学习
的强化学习方法。借助critic进行单步更新。
A3C
:Asynchronous Advantage Actor-CriticA2C
:Advantage Actor-Critic
policy gradient:给定同样的action同样的state,可能会有不同的G。
二者结合 => Actor-Critic
使用 Q-value 替换掉 PG 中的一部分,用价值函数替换baseline。
Advantage Actor-Critic
估值两个网络 Q-network 和 V-network,风险很大 -> 只估计V(s),用V表示Q的值。
r
t
n
+
V
π
(
s
t
+
1
n
)
−
V
π
(
s
t
n
)
\mathrm{r}_{\mathrm{t}}^{\mathrm{n}}+\mathrm{V}^{\pi}\left(\mathrm{s}_{\mathrm{t}+1}^{\mathrm{n}}\right)-\mathrm{V}^{\pi}\left(\mathrm{s}_{\mathrm{t}}^{\mathrm{n}}\right)
rtn+Vπ(st+1n)−Vπ(stn)
Tips:
① actor和critic的网络可以共享,前面几个layer参数共享
② exploration机制
A3C
Asynchronous(异步的) Advantage Actor-Critic
一种改进的Actor-Critic方法,通过异步的操作,进行RL模型训练的加速。
很慢,增加训练速度。同时开多个worker
Pathwise Derivative Policy Gradient
其为使用 Q-learning 解 continuous action 的方法,也是一种 Actor-Critic 方法。其会对于actor提供value最大的action,而不仅仅是提供某一个action的好坏程度。
Connection with GAN
Q: 知道 GAN 跟 Actor-Critic 非常像有什么帮助呢?
A: 一个很大的帮助就是 GAN 跟 Actor-Critic 都是以难训练而闻名的。所以在文献上就会收集各式各样的方法,告诉你说怎么样可以把 GAN 训练起来。怎么样可以把 Actor-Critic 训练起来。但是因为做 GAN 跟 Actor-Critic 的人是两群人,所以这篇 paper 里面就列出说在 GAN 上面有哪些技术是有人做过的,在 Actor-Critic 上面,有哪些技术是有人做过的。也许在 GAN 上面有试过的技术,你可以试着应用在 Actor-Critic 上,在 Actor-Critic 上面做过的技术,你可以试着应用在 GAN 上面,看看是否 work。