TRPO理解

原文链接

导论

η ( π ) \eta(\pi) η(π)代表在策略 π \pi π下产生一系列的回报函数
1
动作值函数,值函数,优势函数定义如下,这里的优势函数 A π A_\pi Aπ表示采用某个动作的优劣
2
对于新的策略 π ~ \tilde{\pi} π~,其回报函数 η ( π ~ ) \eta(\tilde{\pi}) η(π~)可以写为旧策略的回报函数加一个其他项,写作
3

######证明分割线######

上式证明过程不难,原文可见,首先优势函数可写作
4
因此得证
5
######证明分割线######

进一步的,新策略的回报函数 η ( π ~ ) \eta(\tilde{\pi}) η(π~)可以展开写作
6
其中,
7
对于一个改进策略 π ~ \tilde{\pi} π~,如果能做到 ∑ a π ~ ( a ∣ s ) A π ( s , a ) ≥ 0 \sum_a\tilde{\pi}(a|s)A_\pi(s,a)\ge0 aπ~(as)Aπ(s,a)0,那么就说明改进策略的回报函数在递增, π ~ \tilde{\pi} π~比原策略 π \pi π更优秀,然而由于一些估计和近似误差,可能会导致 ∑ a π ~ ( a ∣ s ) A π ( s , a ) < 0 \sum_a\tilde{\pi}(a|s)A_\pi(s,a)<0 aπ~(as)Aπ(s,a)<0,很难优化 η ( π ~ ) \eta(\tilde{\pi}) η(π~),因此引入一个近似值 L π ( π ~ ) L_\pi(\tilde{\pi}) Lπ(π~)
8
L π ( π ~ ) L_\pi(\tilde{\pi}) Lπ(π~) η ( π ~ ) \eta(\tilde{\pi}) η(π~)一阶近似,证明见Kakade & Langford (2002),原文链接,所以当 π \pi π变化不大时,偏差不会特别大。其具有以下性质9
定理1
1011
该定理的证明过程见原文proofB。在以上定理中, α \alpha α代表 π o l d \pi_{old} πold π n e w \pi_{new} πnew之间的最大KL散度,用来衡量二者的区别,当二者区别不大时,由 ρ \rho ρ近似带来的误差不会太大, η \eta η L L L相对比较接近。所以以优化 η \eta η的下界为目标,可以得到以下策略优化算法

算法1
12
TRPO算法相对于PG的优势由此可以体现,PG的更新步长选择不合适会无法找到全局最优点,不一定会让策略变好。但按照TRPO的策略更新公式,我们可以保证 η \eta η单调递增,从而得到一个单调递增的策略序列,这种算法也叫做 minorization-maximization (MM) 算法。由于 L − C D L-CD LCD的表达式很难直接优化,原文也提出了一些近似优化方法。

近似优化方法

  1. 惩罚转化为约束
    首先 C C C作为惩罚项,可能会导致更新步长非常小,故原文首先将惩罚项转化为新旧策略KL散度的约束项
    13
    δ \delta δ应该是精确的常数,即 C C C的对偶,但无法精确计算,所以只能人为设定一个值。
  2. 平均散度替代最大散度
    上式的约束项给状态空间的每个状态都增加了约束,这意味着给新旧策略的KL散度增加了大量的约束,这是很难求解的。所以原文用平均KL散度替代
    14
    15
  3. 一些近似
    根据以上两点,此时优化目标如下
    16
    为了让这个问题更加数值可解,做出如下近似
    (1) ∑ s ρ θ o l d ( s ) [ . . . ] \sum_s\rho\theta_{old}(s)[...] sρθold(s)[...]由期望 1 / ( γ − 1 ) E s ∼ ρ θ o l d [ . . . ] 1/(\gamma-1)E_{s\sim\rho_{\theta{old}}}[...] 1/(γ1)Esρθold[...]代替
    (2) A θ o l d A_{\theta_{old}} Aθold Q θ o l d Q_{\theta_{old}} Qθold代替
    (3)采用重要性采样代替对 a a a的求和
    于是优化目标变为
    17

动作采样

原文提出了两种动作采样的方法
1. single path
2. vine

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值