action请求是什么意思_【强化学习 46】Action-dependent Baseline

04d496b4752ac478b73d915a83528600.png

原文传送门

Wu, Cathy, et al. "Variance reduction for policy gradient with action-dependent factorized baselines." arXiv preprint arXiv:1803.07246 (2018). (ICLR 2018)

特色

Baseline 是 policy gradient 类方法的一个重要的减小方差的手段,这里针对行动可以拆分为若干个条件独立部分的情形,提出了更进一步减小方差的方法。该方法仍然可以保持bias-free。我主要是想随便找篇文章看看 policy gradient 类方法应该如何分析方差。

过程

1. baseline不改变策略梯度的期望

我们先来看只依赖于状态的baseline(通常我们所说的baseline)

0a5dcca7b7fb96f7571b65e1542ae37a.png

如果

无关,那么等式左边为零,这就是baseline不改变策略梯度期望的原因。

555f217283371562ab6605a71a1f1e43.png

2. 最优baseline

baseline不改变策略梯度的期望,但是能够改变它的方差,我们期望能够找到一个最优的baseline使得方差最小。

策略梯度写为

e1f2d4e7eefef1abeff35f06058aa13f.png

把期望里面的梯度看做一个随机变量

f13cb4df4bec06ff07160c2af9ac7570.png

,分别是含
和含
的两项。

策略梯度的方差可以写为(文中写漏了一项,还需要加上

,即本身加baseline之前的方差,不过后面求导就没了,不影响;另外期望下标
代表的是
,因此
应该写在期望里面)

7ac5026e80ea44e47d7cd44a9c31c323.png

令方差的导数为零,可以求导最优的baseline。(上面的方差是对于所有

求的期望,每一项是一个二次型,因此对于任意一个
,都要使得该二次型最小,即导数为零;由此,下面公式中期望下标
应该去掉)

6479fab11b20c010016a430f90973524.png

在平常使用中,我们并不使用这个计算比较困难的baseline,而是使用

。这做了
相互独立的假设(注意到它们都含有随机变量
)。

3. Action-dependent baseline

首先观察到很多情况下,action存在这样的结构

a446abd58a60d24279cbee93f9558be3.png
  • 连续控制的时候,常使用协方差矩阵仅有对角项的多元高斯分布,这时候action的各个维度就可以写为这样的形式;
  • 多智能体强化学习里,如果各个智能体的执行是非中心化的,那么各个智能体之间的行动也可以写成这样的形式;

在这种结构下,可以把梯度拆成多个部分的求和

ed95c5188aff87a429851707ee2d0df3.png

各个部分使用不同的baseline,规定每个部分的baseline只需要不和action对应的这部分有关就可以,即规定

,其中
表示行动中不含
的其他部分。这是因为

e23f14529168ebdd6dc63fd12999e740.png

由此,我们可以得到含有action-dependent baseline的策略梯度

d41fddf5d7f3ba24e71216345c975333.png

4. Optimal action-dependent baseline

最优的意思就是方差最小,分析方式和前面类似,不过为了抵消掉交叉项,需要做如下假设

72ab2950977efe8cc6282746ad2a7a0d.png

该假设说明行动中的不同部分被不同部分的策略参数影响。

策略梯度可以看做如下若干部分的梯度求和

a7922ddeb22f0694268a5ab68256d22c.png

各个部分的随机梯度向量

1b7e2b8a55ca1077f86288fe60fc955b.png

把方差写出来

e6eda6bbc5b9aba1539bae0175f296b7.png

其中

5d2c64efbfa74210aa8c581b01dc9894.png

(33)里面第二项由于前面的假设消掉了,

和baseline无关,后面我们要对于baseline求导数,因此这一项也没啥用。由此,我们可以看出根据action分成若干部分之后,其方差也是若干部分简单加和。

我们来看单一

一项等于什么。

d93551f533acb569c1b68b0e9fc0135a.png

对其求导为零,可以得到最优的baseline。

c08ddce2ff40b64174dca6aff5265797.png

5. 选择一个方便计算的action-dependent baseline

和state-dependent baseline类似,我们推导到最优的baseline,但是出于practical的考虑,一般使用

作baseline。文章提出了几种practical的action-dependent baselien。
  • Marginalized Q baseline:即使用
    作为baseline,其好处是它对于方差的减小程度近乎最优的action-dependent baseline。实际中可以估计一个
    然后再做marginalization,得到相应的
    个baseline。
  • Monte Carlo Q baseline:估计到一个
    之后,要做marginalization需要通过蒙特卡洛采样得到,即

2bd981e7ac9844d4b9f5d77dc65de1b4.png
  • Mean marginalized Q baseline:如果估计到的
    是一个神经网络表示的话,蒙特卡洛采样要求需要把该神经网络向前传播若干次,这比较耗费计算量;这里把它用均值代替,这样只需要正向计算一次了

806468c539f0a31c858df71343670155.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值