EasyRL 强化学习笔记 9章节(Actor-Critic)

第九章 演员-评论家算法

Actor-Critic

演员-评论家算法(Actor-Critic Algorithm)是一种结合策略梯度时序差分学习的强化学习方法。借助critic进行单步更新。

  • A3C:Asynchronous Advantage Actor-Critic
  • A2C:Advantage Actor-Critic

policy gradient:给定同样的action同样的state,可能会有不同的G。
在这里插入图片描述
在这里插入图片描述
二者结合 => Actor-Critic
在这里插入图片描述
使用 Q-value 替换掉 PG 中的一部分,用价值函数替换baseline。

Advantage Actor-Critic

在这里插入图片描述
估值两个网络 Q-network 和 V-network,风险很大 -> 只估计V(s),用V表示Q的值。
r t n + V π ( s t + 1 n ) − V π ( s t n ) \mathrm{r}_{\mathrm{t}}^{\mathrm{n}}+\mathrm{V}^{\pi}\left(\mathrm{s}_{\mathrm{t}+1}^{\mathrm{n}}\right)-\mathrm{V}^{\pi}\left(\mathrm{s}_{\mathrm{t}}^{\mathrm{n}}\right) rtn+Vπ(st+1n)Vπ(stn)

Tips:
① actor和critic的网络可以共享,前面几个layer参数共享
② exploration机制
在这里插入图片描述

A3C

Asynchronous(异步的) Advantage Actor-Critic 一种改进的Actor-Critic方法,通过异步的操作,进行RL模型训练的加速。
在这里插入图片描述
很慢,增加训练速度。同时开多个worker

Pathwise Derivative Policy Gradient

在这里插入图片描述
其为使用 Q-learning 解 continuous action 的方法,也是一种 Actor-Critic 方法。其会对于actor提供value最大的action,而不仅仅是提供某一个action的好坏程度。

Connection with GAN

在这里插入图片描述
Q: 知道 GAN 跟 Actor-Critic 非常像有什么帮助呢?

A: 一个很大的帮助就是 GAN 跟 Actor-Critic 都是以难训练而闻名的。所以在文献上就会收集各式各样的方法,告诉你说怎么样可以把 GAN 训练起来。怎么样可以把 Actor-Critic 训练起来。但是因为做 GAN 跟 Actor-Critic 的人是两群人,所以这篇 paper 里面就列出说在 GAN 上面有哪些技术是有人做过的,在 Actor-Critic 上面,有哪些技术是有人做过的。也许在 GAN 上面有试过的技术,你可以试着应用在 Actor-Critic 上,在 Actor-Critic 上面做过的技术,你可以试着应用在 GAN 上面,看看是否 work。

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值