Offline RL: A Policy-Guided Imitation Approach for Offline Reinforcement Learning

该研究提出了一种新的离线RL方法,通过分解代理为向导策略和执行策略,避免了动作值函数的缺点,同时增强稳定性。通过学习价值函数并结合行为cloning正则化,改善了策略泛化。执行策略采用监督学习训练,并在评估阶段考虑向导策略的指导。
摘要由CSDN通过智能技术生成

NIPS 2022
paper

Intro

针对离线 RL 问题,提出将代理分解为一个向导策略(guide-policy): g ( s ′ ∣ s ) g(s'|s) g(ss)和一个执行策略(execute-policy) : π ( a ∣ s , g ( s ) ) \pi(a| s, g(s)) π(as,g(s)),前者建议向给定的当前状态转换的下一个状态的最高值,后者产生可能一步就将代理转换到给定状态的操作。通过这种分解,避免了使用动作值函数的方法的缺陷,同时保持了模拟学习方法的稳定性。

Method

Learning the Guide-Policy

为了让向导策略能够正确引导,首先需要利用离线数据中的(s,s’,r)学习一个价值函数。由于缺乏动作,自然有利于规避ODD导致的过估计。
min ⁡ ϕ E ( s , r , s ′ ) ∼ D [ 1 ( 1 + r + γ V ϕ ′ ( s ′ ) − V ϕ ( s ) 2 τ > 0 ) ( 1 + r + γ V ϕ ′ ( s ′ ) − V ϕ ( s ) 2 τ ) 2 + V ϕ ( s ) τ ] \min_{\phi}\mathbb{E}_{(s,r,s^{\prime})\sim\mathcal{D}}\left[1\Big(1+\frac{r+\gamma V_{\phi^{\prime}}(s^{\prime})-V_{\phi}(s)}{2\tau}>0\Big)\Big(1+\frac{r+\gamma V_{\phi^{\prime}}(s^{\prime})-V_{\phi}(s)}{2\tau}\Big)^{2}+\frac{V_{\phi}(s)}{\tau}\right] ϕminE(s,r,s)D[1(1+2τr+γVϕ(s)Vϕ(s)>0)(1+2τr+γVϕ(s)Vϕ(s))2+τVϕ(s)]
上述公式的 τ \tau τ实现最优化V以及减少逼近误差的trade-off。较小的 τ \tau τ向更高V 驱动,同时引入更大的近似误差,反之亦然。

得到价值函数,简单最大化从而得到指导策略容易出现错误状态泛化。因此本文添加一项基于BC的正则化项: max ⁡ ω E s ∼ D , s ′ ∼ g ω ( s ) [ V ϕ ( s ′ ) + α log ⁡ g μ ( s ′ ∣ s ) ] \max_{\omega}\mathbb{E}_{s\sim\mathcal{D},s^{\prime}\sim g_{\omega}(s)}\Big[V_{\phi}(s^{\prime})+\alpha\log g_{\mu}(s^{\prime}|s)\Big] ωmaxEsD,sgω(s)[Vϕ(s)+αloggμ(ss)]

其中 g μ g_\mu gμ是利用离线数据得到的。除此外,还提供另一种行为隐式正则(AWR算法)的策略优化方法:
max ⁡ ω E ( s , s ′ ) ∼ D [ exp ⁡ ( r + γ V ϕ ′ ( s ′ ) − V ϕ ( s ) α ) log ⁡ g ω ( s ′ ∣ s ) ] \max_{\omega}\mathbb{E}_{(s,s')\sim\mathcal{D}}\Bigg[\exp\Big(\frac{r+\gamma V_{\phi'}(s')-V_{\phi}(s)}{\alpha}\Big)\log g_{\omega}(s'|s)\Bigg] ωmaxE(s,s)D[exp(αr+γVϕ(s)Vϕ(s))loggω(ss)]

Learning the Execute-Policy: Training and Evaluation

得到向导策略后,利用监督学习的方法学习执行策略:
max ⁡ θ E ( s , a , s ′ ) ∈ D [ log ⁡ π θ ( a ∣ s , s ′ ) ] \max_\theta\mathbb{E}_{(s,a,s')\in\mathcal{D}}\Big[\log\pi_\theta(a|s,s')\Big] θmaxE(s,a,s)D[logπθ(as,s)]
而在以后的evaluation过程中策略表示如下: a = arg ⁡ max ⁡ a π θ ( a ∣ s , g ω ( s ) ) a=\arg\max_a\pi_\theta(a|s,g_\omega(s)) a=argmaxaπθ(as,gω(s))

  • 18
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值