Online RL + IL :Policy Improvement via Imitation of Multiple Oracles

NIPS 2020
paper
code
如何利用多个次优专家策略来引导智能体在线学习,后续有多个文章研究该设定下的RL。

Intro

论文探讨了在强化学习(RL)中,如何通过模仿多个次优策略(称为oracle)来提升策略性能的问题。模仿学习(Imitation Learning, IL)通过在训练期间使用oracle策略作为引导,减少了这种成本。然而实际情况下,学习者可以访问到多个次优的oracle,这些oracle在某些状态下可能会提供相互矛盾的指导。现有的模仿学习文献对这种情况的处理相对有限。
论文的主要贡献包括:

  1. 提出了一个理论框架,用于从多个oracle中学习,特别是通过定义一个基于多个oracle策略价值函数最大值的基准线(max-aggregated baseline),来解决多个oracle之间冲突的建议。
  2. 提出了一个新颖的模仿学习算法MAMBA(Max-aggregation of Multiple Baselines),它可以通过在线学习的方式,学习与max-aggregated baseline竞争的策略。MAMBA是一个基于广义优势估计(Generalized Advantage Estimation, GAE)风格的梯度估计器的一阶算法。
  3. 提供了MAMBA的遗憾(regret)性能保证,并在实验中评估了MAMBA与标准策略梯度和AggreVaTe(D)算法的性能,展示了MAMBA利用单个和多个弱oracle进行演示的能力,并显著加快了策略优化的速度。 论文还讨论了如何选择在给定状态下切换不同oracle的点,以及是否可以学习一种可靠的规则来进行切换。

Method

文章设定智能体能够访问一组Oracle策略 Π e = { π k } k ∈ [ K ] \Pi^{\mathsf{e}}=\{\pi^{k}\}_{k\in[K]} Πe={πk}k[K]。设 V k : = V π k V^k:=V^{\pi^k} Vk:=Vπk表示策略对应的状态价值函数。为了防止多种Oracle给出矛盾的建议导致智能体在线优化,文章提出max-aggregated baseline
f max ⁡ ( s ) : = max ⁡ k ∈ [ K ] V k ( s ) f^{\max}(s):=\max_{k\in[K]}V^k(s) fmax(s):=k[K]maxVk(s)
该值将作为一个目标,让智能体学习策略使得状态值函数大于该baseline。而此时需要完全了解MDP过程以及oracle准确的价值估计函数,这在IL中无法满足。因此,本文提出在线RL去逼近。
A ^ \hat{A} A^表示 A f ^ m a x A^{\widehat{f}^{\mathrm{max}}} Af max。采用基于优势函数 A ^ \hat{A} A^的策略梯度方法优化
∇ ℓ ^ n ( π n ) = − T E s ∼ d π n E a ∼ π ∣ s [ ∇ log ⁡ π ( a ∣ s ) A ^ ( s , a ) ] ∣ π = π n \nabla\widehat{\ell}_n(\pi_n)=-T\mathbb{E}_{s\sim d^{\pi n}}\mathbb{E}_{a\sim\pi|s}\left[\nabla\log\pi(a|s)\widehat{A}(s,a)\right]|_{\pi=\pi_n} n(πn)=TEsdπnEaπs[logπ(as)A (s,a)]π=πn

在这里插入图片描述
该定理说明在一阶在线算法(一阶导数更新模型参数)的期望遗憾满足一定条件下,最大化下界max-aggregated baseline的期望,便最大化价值函数。而在单个oracle下, 基于MC近似估计的 f ^ m a x \hat{f}^{max} f^max是无偏估计。但是存在T倍方差。在多个Oracle下对 f m a x f^{max} fmax行无偏估计十分困难。因此本文采用基于类似TD- λ \lambda λ的加权估计方法,对其进行函数近似。优化目标可表示为
ℓ n ( π ; λ ) : = − ( 1 − λ ) T E s ∼ d π n [ A λ max ⁡ , π ( s , π ) ] − λ E s ∼ d 0 [ A λ max ⁡ , π ( s , π ) ] \ell_n(\pi;\lambda):=-(1-\lambda)T\mathbb{E}_{s\thicksim d^{\pi_n}}\left[A_\lambda^{\max,\pi}(s,\pi)\right]-\lambda\mathbb{E}_{s\thicksim d_0}\left[A_\lambda^{\max,\pi}(s,\pi)\right] n(π;λ):=(1λ)TEsdπn[Aλmax,π(s,π)]λEsd0[Aλmax,π(s,π)]
其中加权优势函数为
A λ max ⁡ , π ( s , a ) : = ( 1 − λ ) ∑ i = 0 ∞ λ i A ( i ) max ⁡ , π ( s , a ) A ( i ) max ⁡ , π ( s t , a t ) : = E ξ t ∼ ρ π ∣ s t [ r ( s t , a t ) + ⋯ + r ( s t + i , a t + i ) + f max ⁡ ( s t + i + 1 ) ] − f max ⁡ ( s t ) A_\lambda^{\max,\pi}(s,a):=(1-\lambda)\sum_{i=0}^\infty\lambda^iA_{(i)}^{\max,\pi}(s,a)\\\\A_{(i)}^{\max,\pi}(s_t,a_t):=\mathbb{E}_{\xi_t\sim\rho^\pi|s_t}[r(s_t,a_t)+\cdots+r(s_{t+i},a_{t+i})+f^{\max}(s_{t+i+1})]-f^{\max}(s_t) Aλmax,π(s,a):=(1λ)i=0λiA(i)max,π(s,a)A(i)max,π(st,at):=Eξtρπst[r(st,at)++r(st+i,at+i)+fmax(st+i+1)]fmax(st)

该优化目标的梯度满足以下定理
在这里插入图片描述
因此原问题梯度表示为 ∇ ℓ ^ n ( π n ; λ ) = − T E s ∼ d π n E a ∼ π ∣ s [ ∇ log ⁡ π ( a ∣ s ) A ^ λ π ( s , a ) ] ∣ π = π n ( 17 ) \nabla\widehat{\ell}_n(\pi_n;\lambda)=-T\mathbb{E}_{s\sim d^{\pi_n}}\mathbb{E}_{a\sim\pi|s}[\nabla\log\pi(a|s)\widehat{A}_\lambda^\pi(s,a)]|_{\pi=\pi_n} (17) n(πn;λ)=TEsdπnEaπs[logπ(as)A λπ(s,a)]π=πn17

Lemma   4.   Define   A ^ ( s , a ) : = r ( s , a ) + E s ′ ∣ s , a [ f ^ max ⁡ ( s ′ ) ] − f ^ max ⁡ ( s ) .   It   holds   that   for   all   λ ∈ [ 0 , 1 ] , A ^ λ π ( s t , a t ) = E ξ t ∼ ρ π ∣ s t [ ∑ τ = t T − 1 λ τ − t A ^ ( a τ , s τ ) ] (18) \textbf{Lemma 4. Define }\widehat{A}(s,a):=r(s,a)+\mathbb{E}_{s^{\prime}|s,a}[\widehat{f}^{\max}(s^{\prime})]-\widehat{f}^{\max}(s).\textit{ It holds that for all }\lambda\in[0,1],\\\widehat{A}_\lambda^\pi(s_t,a_t)=\mathbb{E}_{\xi_t\sim\rho^\pi|s_t}\left[\sum_{\tau=t}^{T-1}\lambda^{\tau-t}\widehat{A}(a_\tau,s_\tau)\right]\text{(18)} Lemma 4. Define A (s,a):=r(s,a)+Ess,a[f max(s)]f max(s). It holds that for all λ[0,1],A λπ(st,at)=Eξtρπst[τ=tT1λτtA (aτ,sτ)](18)
基于上式,便可利用近似函数 f ^ max ⁡ \hat{f}^{\max} f^max,通过采样轨迹数据获得无偏估计,并通过策略梯度方法优化策略。

伪代码

在这里插入图片描述

  • 5
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值