Online RL + IL : Blending Imitation and Reinforcement Learning for Robust Policy Improvement

ICLR 2024 Spotlight
paper
max-aggregation 系列的第三篇文章,同样研究从多个次优策略中选择,从而引导智能体在线高效学习

Intro

MAMBA 和 MAPS 在面对质量较差的专家集合或学习者已经超越所有专家时,仍然会尝试从较差的专家中进行模仿学习,这可能会阻碍策略改进。本文提出一种全新框架RPI用于解决该问题。

Method

首先文章对原始设定下的专家策略结合进行扩展,将当前学习者策略纳入其中。
在这里插入图片描述
这样全新的max-aggregation 中的优势函数以及策略定义为
在这里插入图片描述

在这里插入图片描述
这种策略扩展使得 π ∘ ( a ∣ s ) \pi^{\circ}\left(a\mid s\right) π(as)始终保证为最优策略。同时,为了实现在rollout过程中的探索能力以及学习者策略自我提升,算法使用Dirac distribution采样.
在这里插入图片描述
接下来便是采用在线RL算法是对价值函数进行逼近。文章所提出的算法由两部分构成:

  1. Robust Active Policy Selection (RAPS):基于价值函数选择策略rollout。
  2. Robust Policy Gradient (RPG):在 actor-critic 框架内,基于新提出的优势函数(类GAE)执行策略梯度更新

RAPS

RAPS 采用集成模型估计策略的价值函数,结合 UCB (专家策略)和 LCB (学习者策略)的方法调整函数估计,选取最优估计下的策略从而实现主动策略选择。
V ^ k ‾ ( s ) = V ^ μ k ( s ) + σ k ( s ) , V ^ k ‾ ( s ) = V ^ μ k ( s ) − σ k ( s ) k ⋆ = arg ⁡ max ⁡ k ∈ [ ∣ Π ε ∣ ] { V ^ 1 ‾ ( s ) , V ^ 2 ‾ ( s ) , . . . , V ^ K ‾ ( s ) , V ^ K + 1 ‾ ( s ) } ( 10 ) \begin{align}\overline{\hat{V}^k}(s)&=\hat{V}_\mu^k(s)+\sigma_k(s),\underline{\hat{V}^k}(s)=\hat{V}_\mu^k(s)-\sigma_k(s)\\k_{\star}&=\arg\max_{k\in[|\Pi^{\varepsilon}|]}\left\{\overline{\hat{V}^{1}}\left(s\right),\overline{\hat{V}^{2}}\left(s\right),...,\overline{\hat{V}^{K}}\left(s\right),\underline{\hat{V}^{K+1}}\left(s\right)\right\} (10)\end{align} V^k(s)k=V^μk(s)+σk(s),V^k(s)=V^μk(s)σk(s)=argk[Πε]max{V^1(s),V^2(s),...,V^K(s),V^K+1(s)}(10)

RPG

执行策略收集轨迹样本用于价值函数优化以及策略优化。本文采用actor-critic框架。其中对策略梯度优化,采用GAE形式估计优势函数
A ^ t G A E ( γ , λ ) + = δ ^ t + ( γ λ ) δ ^ t + 1 + . . . + ( λ γ ) T − t + 1 δ ^ T − 1 ,   w h e r e   δ ^ t = r t + γ f ^ + ( s t + 1 ) − f ^ + ( s t ) ( 11 ) \hat{A}_t^{\mathrm{GAE}(\gamma,\lambda)+}=\hat{\delta}_t+\left(\gamma\lambda\right)\hat{\delta}_{t+1}+...+\left(\lambda\gamma\right)^{T-t+1}\hat{\delta}_{T-1},\mathrm{~where~}\hat{\delta}_t=r_t+\gamma\hat{f}^+\left(s_{t+1}\right)-\hat{f}^+\left(s_t\right) (11) A^tGAE(γ,λ)+=δ^t+(γλ)δ^t+1+...+(λγ)Tt+1δ^T1, where δ^t=rt+γf^+(st+1)f^+(st)(11)
f ^ + ( s ) = max ⁡ k ∈ [ ∣ Π ε ∣ ] V ^ μ k ( s ) ,   w h e r e   V ^ μ k ( s ) = V ^ μ ∣ Π ε ∣ ( s ) ,   w h e n   σ k ( s ) > Γ s = 0.5 \hat{f}^{+}\left(s\right)=\max_{k\in[|\Pi^{\varepsilon}|]}\hat{V}_{\mu}^{k}\left(s\right),\mathrm{~where~}\hat{V}_{\mu}^{k}\left(s\right)=\hat{V}_{\mu}^{|\Pi^{\varepsilon}|}\left(s\right),\mathrm{~when~}\sigma_{k}\left(s\right)>\Gamma_{s}=0.5 f^+(s)=k[Πε]maxV^μk(s), where V^μk(s)=V^μΠε(s), when σk(s)>Γs=0.5

进一步利用策略梯度算法方法优化策略函数。
ℓ ^ n ( π n ) : = − H E s ∼ d π n E a ∼ π ∣ s [ A ^ GAE + ( s , a ) ] ∣ π = π n , \hat{\ell}_n\left(\pi_n\right):=-H\mathbb{E}_{s\sim d^{\pi_n}}\mathbb{E}_{a\sim\pi|s}\left[\hat{A}^{\text{GAE}+}\left(s,a\right)\right]|_{\pi=\pi_n}, ^n(πn):=HEsdπnEaπs[A^GAE+(s,a)]π=πn,
g ^ n = ∇ ℓ ^ n ( π n ) = − H E s ∼ d π n E a ∼ π ∣ s [ ∇ log ⁡ π ( a ∣ s ) A ^ t G A E + ( s , a ) ] ∣ π = π n . ( 14 ) \hat{g}_n=\nabla\hat{\ell}_n\left(\pi_n\right)=-H\mathbb{E}_{s\sim d^{\pi_n}}\mathbb{E}_{a\sim\pi|s}\left[\nabla\log\pi\left(a\mid s\right)\hat{A}_t^{\mathrm{GAE}+}\left(s,a\right)\right]|_{\pi=\pi_n}.(14) g^n=^n(πn)=HEsdπnEaπs[logπ(as)A^tGAE+(s,a)]π=πn.(14)

伪代码

在这里插入图片描述

Results

在这里插入图片描述

  • 11
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值