Offline RL : Offline Reinforcement Learning with Uncertainty Critic Regularization Based on Density

IJCNN 2023
paper
code
在PBRL的悲观价值估计的基础上,添加一个基于VAE的ELBO的密度估计权重。同时,将算法进一步推广到在线阶段,实现乐观的价值估计。

Intro

离线强化学习时长因为OOD数据导致价值函数的错误估计。离线RL通常使用策略约束、价值函数正则化或不确定性估计等方法,使学习到的策略接近行为策略。然而,策略约束方法会限制策略在次优行为策略附近的区域;价值函数正则化方法不能准确评估OOD(Out-of-Distribution,即分布外)行为,可能导致在估计接近分布的行为的Q值时过于保守;不确定性估计可能因为复杂环境或训练初期的不准确估值而产生偏差。

本文使用Density-UCR(基于密度估计的不确定性评论家正则化)来解决这些问题。Density-UCR通过为Q函数估计提供低置信区间(LCB)并使用集成Q函数的估计误差作为惩罚值来惩罚OOD行为。此外,Density-UCR使用密度估计器对离线数据的分布进行建模,以获得更准确的惩罚值的不确定性权重。该方法还将不确定性估计用作优先级重放缓冲区的权重,以增加在线微调的稳定性,并防止离线样本相对于在线样本的分布变化导致性能下降。实验表明,Density-UCR在D4RL基准测试中显著优于传统的策略约束方法和价值函数正则化方法,并且在微调性能方面表现优异。

Method

在这里插入图片描述

Explicit Estimation of Behavioral Density Distribution

max ⁡ Φ , Ψ E q Φ ( z ∣ s , a ) [ p Ψ ( a ∣ s , z ) ] − β D K L [ q Φ ( z ∣ s , a ) ∣ ∣ p ( z ∣ s ) ] ] ≐ L E L B O ( s , a ; Φ , Ψ ) \begin{aligned}\max_{\Phi,\Psi}\mathbb{E}_{q_{\Phi}(z|s,a)}\left[p_{\Psi}(a|s,z)\right]-\beta D_{KL}\left[q_{\Phi}(z|s,a)||p(z|s)\right]]\doteq\mathcal{L}_{ELBO}(s,a;\Phi,\Psi)\end{aligned} Φ,ΨmaxEqΦ(zs,a)[pΨ(as,z)]βDKL[qΦ(zs,a)∣∣p(zs)]]LELBO(s,a;Φ,Ψ)
采用VAE对离线数据中的状态动作密度分布进行估计。该ELBO将作为权重值衡量不确定性

Offline Pessimistic Learning

类似PBRL,对分布内以及分布外的数据分别进行悲观Q估计。对于分布内
B i n Q ϕ k ( s , a ) : = r ( s , a ) + γ E s ′ ∼ T , a ′ ∼ π θ [ min ⁡ i = 1 , . . . , N Q ϕ i ′ ( s ′ , a ′ ) − α i n L E L B O ( s ′ , a ′ ; Φ , Ψ ) P ′ ( s ′ , a ′ ) ] \mathfrak{B}^{in}Q_{\phi_{k}}(s,a):=r(s,a)+\gamma\mathbb{E}_{s^{\prime}\sim T,a^{\prime}\sim\pi_{\theta}}[\min_{i=1,...,N}Q_{\phi_{i}^{\prime}}(s^{\prime},a^{\prime})-\alpha_{in}\mathcal{L}_{ELBO}(s^{\prime},a^{\prime};\Phi,\Psi)\mathcal{P}^{\prime}(s^{\prime},a^{\prime})] BinQϕk(s,a):=r(s,a)+γEsT,aπθ[i=1,...,NminQϕi(s,a)αinLELBO(s,a;Φ,Ψ)P(s,a)]

对于OOD的数据
B o o d Q ϕ k ( s , a o o d ) : = Q ϕ k ( s , a o o d ) − α o o d L E L B O ( s , a o o d ; Φ , Ψ ) P ( s , a o o d ) \mathfrak{B}^{ood}Q_{\phi_{k}}(s,a^{ood}):=Q_{\phi_{k}}(s,a^{ood})-\alpha_{ood}\mathcal{L}_{ELBO}(s,a^{ood};\Phi,\Psi)\mathcal{P}(s,a^{ood}) BoodQϕk(s,aood):=Qϕk(s,aood)αoodLELBO(s,aood;Φ,Ψ)P(s,aood)

二者联合优化 L c r i t i c o f f l i n e = E ( s , a , r , s ′ ) ∼ D o f f [ ( B i n Q ϕ k − Q ϕ k ) 2 ] + E s ∼ D o f f , a o o d ∼ π θ [ ( B o o d Q ϕ k − Q ϕ k ) 2 ] \begin{aligned}\mathcal{L}_{critic}^{offline}&=\mathbb{E}_{(s,a,r,s^{\prime})\sim\mathcal{D}_{off}}[(\mathfrak{B}^{in}Q_{\phi_{k}}-Q_{\phi_{k}})^{2}]+\mathbb{E}_{s\sim\mathcal{D}_{off},a^{ood}\sim\pi_{\theta}}[(\mathfrak{B}^{ood}Q_{\phi_{k}}-Q_{\phi_{k}})^{2}]\end{aligned} Lcriticoffline=E(s,a,r,s)Doff[(BinQϕkQϕk)2]+EsDoff,aoodπθ[(BoodQϕkQϕk)2]
策略优化则是最小化 L p o l i c y o f f l i n e = E s ∼ D o f f , a ′ ∼ π θ ( ⋅ ∣ s ) [ − min ⁡ k = 1 , . . . , N Q ϕ k ( s , a ′ ) ] \mathcal{L}_{policy}^{offline}=\mathbb{E}_{s\sim\mathcal{D}_{off},a^{\prime}\sim\pi_{\theta}(\cdot|s)}\left[-\min_{k=1,...,N}Q_{\phi_{k}}(s,a^{\prime})\right] Lpolicyoffline=EsDoff,aπθ(s)[mink=1,...,NQϕk(s,a)]

Online Phase

Priority Experience Replay

将离线数据中累计reward最高的50条轨迹初始化在线Buffer,同时优先经验回访机制的Buffer,对样本的采样概率受ELBO影响
w ( s , a ) = σ ( − 2.0 ∗ L E L B O ( s , a ; Φ , Ψ ) ) ,         σ ( x ) = 1 1 + e − x . w(s,a)=\sigma(-2.0*\mathcal{L}_{ELBO}(s,a;\Phi,\Psi)), ~~~~~~~\sigma(x)=\frac1{1+e^{-x}}. w(s,a)=σ(2.0LELBO(s,a;Φ,Ψ)),       σ(x)=1+ex1.

同时,为了防止离线阶段悲观的价值估计导致在线阶段策略探索能力不足,采用乐观的Q估计
B o n Q ϕ k ( s , a ) : = r ( s , a ) + γ E s ′ ∼ T , a ′ ∼ π θ [ Q ϕ ′ ( s ′ , a ′ ) + α o n L E L B O ( s ′ , a ′ ; Φ , Ψ ) P ′ ( s ′ , a ′ ) ] \begin{aligned}\mathfrak{B}^{on}Q_{\phi_{k}}(s,a)&:=r(s,a)+\gamma\mathbb{E}_{s'\sim T,a'\sim\pi_{\theta}}[Q_{\phi'}(s',a')\\&+\alpha_{on}\mathcal{L}_{ELBO}(s',a';\Phi,\Psi)\mathcal{P}'(s',a')]\end{aligned} BonQϕk(s,a):=r(s,a)+γEsT,aπθ[Qϕ(s,a)+αonLELBO(s,a;Φ,Ψ)P(s,a)]

而Critic以及Actor估计如下
L c r i t i c o n l i n e = E ( s , a , r , s ′ ) ∼ D o n [ ( B o n Q ϕ k − Q ϕ k ) 2 ] L p o l i c y o n l i n e = E ⁡ s ∼ D o n , a ′ ∼ π θ ( ⋅ ∣ s ) [ − min ⁡ k = 1 , . . . , N Q ϕ k ( s , a ′ ) ] \mathcal{L}_{critic}^{online}=\mathbb{E}_{(s,a,r,s')\sim\mathcal{D}_{on}}[(\mathfrak{B}^{on}Q_{\phi_k}-Q_{\phi_k})^2]\\ \mathcal{L}_{policy}^{online}=\underset{s\sim\mathcal{D}_{on},a^{\prime}\sim\pi_{\theta}(\cdot|s)}{\operatorname*{\mathbb{E}}}\left[-\underset{k=1,...,N}{\operatorname*{min}}Q_{\phi_{k}}(s,a^{\prime})\right] Lcriticonline=E(s,a,r,s)Don[(BonQϕkQϕk)2]Lpolicyonline=sDon,aπθ(s)E[k=1,...,NminQϕk(s,a)]

结果

在这里插入图片描述
在这里插入图片描述

  • 24
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值