actor-critic方法

1.减小方差

方差很高时,随机变量的取值可能会远远偏离均值。
策略梯度方法的思想:增加良好动作的执行概率,并减少不良动作的执行概率。
为了提高Reinforce的稳定性,从梯度量表中减去了平均奖励。为什么这么做?
假设有一个非常简单的场景,在该场景中我们对梯度进行一次优化,有三个动作,它们的总折扣奖励值不同,分别为 Q 1 、 Q 2 和 Q 3 Q_1、Q_2和Q_3 Q1Q2Q3.令 Q 1 Q_1 Q1 Q 2 Q_2 Q2都等于某个小的正数,而 Q 3 Q_3 Q3是某个大的负数。由这三个步骤得到的综合梯度将试图使策略原理第三步的动作,而稍微向第一步和第三步靠拢。
但若奖励永远是正的,只有价值不同。那么策略将会向第三步稍微靠拢。减去平均值使得策略梯度标准化。避免了策略梯度的偏移。

2 actor-critic

减小方差的下一步是使基线与状态有关 ,因为不同的状态可能具有非常不同的基线。总奖励本身可以表示为状态的价值加上动作的优势值: Q ( s , a ) = V ( s ) + A ( s , a ) Q(s,a) = V(s) + A(s,a) Q(s,a)=V(s)+A(s,a),和dueling DQN一样。
所以可以用V(s)来作为基线,梯度缩放因子将只是优势值 A ( s , a ) A(s,a) A(s,a)
现在只需要知道 V ( s ) V(s) V(s)是多少即可,我们可以使用另一种神经网络,为每个观察近似 V ( s ) V(s) V(s)。要训练它,可以采用在DQN方法中使用过的相同的训练过程:执行Bellman步骤,然后最小化均方误差以改进 V ( s ) V(s) V(s)的近似值。
这种方法被称为Advantage Actor-Critic方法,简称A2C。
训练步骤:
请添加图片描述
请添加图片描述

3 A3C:Asynchronous Advantage Actor-Critic

3.1 相关性和采样效率

强化学习的样本之间的相关性打破了随机梯度下降的优化至关重要的独立同分布的假设。带来的负面效果为梯度的方差很大,这意味着训练批包含非常相似的样本,所有这些样本都将我们的网络推向了相同的方向。从全局来看,这些样本可能将网络推向了完全错误的方向。
最常用的解决方案就是使用多个并行环境来收集状态转移,所有这些环境均使用当前的策略。我们现在训练的是从不同环境中获得的不同的片段数据,这打破了同一个片段中样本的相关性。但这样采样效率低下,因为使用一次就抛弃了。

3.2 A3C并行化

请添加图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值