Offline: Look Beneath the Surface: Exploiting Fundamental Symmetry for Sample-Efficient Offline RL

ICML 2023 Workshop SCIS Poster
paper
code

Intro

研究在有限的且覆盖范围狭窄的数据集中学习到一个可靠的策略。具体来说,通过结合时间反演对称性(T-对称性),在隐空间中对前向和反向的动力学过程的一致性建立动力学模型(TDM)。文章发现TDM为小样本数据集提供了良好可靠的的表示空间,并可以基于T-对称性为衡量指标为OOD样本进行度量。基于此构造了一个新的离线RL算法(TSRL),该算法具有较少保守的策略约束和一个可靠数据增强方法。在D4RL数据上即使只有原始样本的1%,该算法的性能显著优于现有的离线RL算法

Metho

时间反演对称

文章指出大多数的现实环境模型中,可以用非线性一阶常微分方程近似动力学模型,若存在可逆变换 Γ : Ω ↦ Ω \Gamma:\Omega\mapsto\Omega Γ:ΩΩ使得方程 d Γ ( x ) / d t = − F ( Γ ( x ) ) d\Gamma(\mathbf{x})/dt=-F(\Gamma(\mathbf{x})) dΓ(x)/dt=F(Γ(x)),则称为ODE系统是时间反转对称。定义时间演化算子 U Δ t : x ( t ) ↦ U Δ t ( x ( t ) ) = x ( t + Δ t ) U_{\Delta t}:\mathbf{x}(t)\mapsto U_{\Delta t}(\mathbf{x}(t))=\mathbf{x}(t+\Delta t) UΔt:x(t)UΔt(x(t))=x(t+Δt)。T-对称表明 Γ ∘ U τ = U − τ ∘ Γ \Gamma\circ U_{\tau}=U_{-\tau}\circ\Gamma ΓUτ=UτΓ(复合映射),即任意状态的前向时间演化的反转应该等于反向状态的后向时间演化。

在时间离散的MDP中, x = ( s , a ) x=(s,a) x=(s,a),方程为 s ˙ = d s d t = s ′ − s \dot{s}=\frac{ds}{dt} = s'-s s˙=dtds=ss。此时前向模型为 F ( s , a ) = s ˙ F(s,a)=\dot{s} F(s,a)=s˙而反向模型为 − G ~ ( s ′ , a ′ ) . -\tilde{G}(s',a'). G~(s,a).二者相等。为了避免下一时刻状态产生不可逆的动作或者特殊的动力学过程,设置反向模型中的动作为 a a a.

TDM

在这里插入图片描述
TDM为encoder-decoder的架构,其中解码器额外添加 δ s = 0 \delta_{s}=0 δs=0是指引其解码结果目标为状态值, δ = 1 \delta=1 δ=1为解码目标为 s ˙ \dot{s} s˙。encoder-decoder的损失函数由两个MSE构成
ℓ r e c ( s , a ) = ∥ s − ψ s ( z s , 0 ) ∥ 2 2 + ∥ a − ψ a ( z a ) ∥ 2 2 \ell_{rec}(s,a)=\|s-\psi_s(z_s,0)\|_2^2+\|a-\psi_a(z_a)\|_2^2 rec(s,a)=sψs(zs,0)22+aψa(za)22

隐变量前向模型 f ( z s , z a ) = z ˙ s f(z_s, z_a) = \dot{z}_s f(zs,za)=z˙s中,目标是让 z ˙ s = z s ′ − z s z ˙ s = z s ′ − z s \dot{z}_s=z_{s^{\prime}}-z_s\dot{z}_s=z_{s^{\prime}}-z_s z˙s=zszsz˙s=zszs。而链式法则得到 z ˙ s = d z s d t = ∂ z s ∂ s ⋅ d s d t = ∇ s z s ⋅ s ˙ . \dot{z}_{s}=\frac{dz_{s}}{dt}=\frac{\partial z_{s}}{\partial s}\cdot\frac{ds}{dt}=\nabla_{s}z_{s}\cdot\dot{s}. z˙s=dtdzs=szsdtds=szss˙.因此,构造优化函数:
ℓ f w d ( s , a , s ′ ) = ∥ ( ∇ s z s ) s ˙ − z ˙ s ∥ 2 2 = ∥ ∂ ϕ ( s , a ) ∂ s s ˙ − f ( ϕ ( s , a ) ) ∥ 2 2 \ell_{fwd}(s,a,s')=\|(\nabla_sz_s)\dot{s}-\dot{z}_s\|_2^2=\|\frac{\partial\phi(s,a)}{\partial s}\dot{s}-f(\phi(s,a))\|_2^2 fwd(s,a,s)=(szs)s˙z˙s22=sϕ(s,a)s˙f(ϕ(s,a))22
同时要求解码器解码器从 z ˙ s \dot{z}_s z˙s中解码得到 s ˙ \dot{s} s˙,构造损失函数
ℓ d s ( s , a , s ′ ) = ∥ s ˙ − ψ s ( z ˙ s , 1 ) ∥ 2 2 = ∥ s ˙ − ψ s ( f ( ϕ ( s , a ) ) , 1 ) ∥ 2 2 \ell_{ds}(s,a,s')=\|\dot{s}-\psi_s(\dot{z}_s,1)\|_2^2=\|\dot{s}-\psi_s(f(\phi(s,a)),1)\|_2^2 ds(s,a,s)=s˙ψs(z˙s,1)22=s˙ψs(f(ϕ(s,a)),1)22

同理。反方向动力学模型的损失函数为
ℓ r v s ( s , a , s ′ ) = ∥ ( ∇ s ′ z s ′ ) ( − s ˙ ) − ( − z ˙ s ) ∥ 2 2 = ∥ ∂ ϕ ( s ′ , a ) ∂ s ′ ( − s ˙ ) − g ( ϕ ( s ′ , a ) ) ∥ 2 2 \ell_{rvs}(s,a,s')=\|(\nabla_{s'}z_{s'})(-\dot{s})-(-\dot{z}_s)\|_2^2=\|\frac{\partial\phi(s',a)}{\partial s'}(-\dot{s})-g(\phi(s',a))\|_2^2 rvs(s,a,s)=(szs)(s˙)(z˙s)22=sϕ(s,a)(s˙)g(ϕ(s,a))22

上述两个模型满足T对称 g ( z s + f ( z s , z a ) , z a ) = − z ˙ s = − f ( z s , z a ) g(z_s+f(z_s,z_a),z_a)=-\dot{z}_s=-f(z_s,z_a) g(zs+f(zs,za),za)=z˙s=f(zs,za),因此最小化损失函数
ℓ T − s y m ( z s , z a ) = ∥ f ( z s , z a ) + g ( z s + f ( z s , z a ) , z a ) ∥ 2 2 \ell_{T-sym}(z_s,z_a)=\left\|f(z_s,z_a)+g(z_s+f(z_s,z_a),z_a)\right\|_2^2 Tsym(zs,za)=f(zs,za)+g(zs+f(zs,za),za)22

综上所述,TDM的联合优化目标为
L T D M = ∑ ( s , a , s ′ ) ∈ D [ ℓ r e c + ℓ d s + ℓ f w d + ℓ r v s + ℓ T − s y m ] ( s , a , s ′ ) + λ L 1 [ L 1 ( f ) + L 1 ( g ) ] \mathcal{L}_{TDM}=\sum_{(s,a,s^{\prime})\in\mathcal{D}}[\ell_{rec}+\ell_{ds}+\ell_{fwd}+\ell_{rvs}+\ell_{T-sym}](s,a,s^{\prime})+\lambda_{L1}[\mathcal{L}_{1}(f)+\mathcal{L}_{1}(g)] LTDM=(s,a,s)D[rec+ds+fwd+rvs+Tsym](s,a,s)+λL1[L1(f)+L1(g)]
其中 L 1 \mathcal{L}_1 L1为L1-正则化。

TSRL

完成TDM的优化后便是将其用于离线学习。其中价值函数通过最小化基于TDM表征的均方bellman误差
Q = argmin ⁡ Q E ( s , a , s ′ ) ∼ D [ ( r ( s , a ) + γ Q ^ ( ϕ ( s ′ , π ( ⋅ ∣ s ′ ) ) ) − Q ( ϕ ( s , a ) ) ) 2 ] Q=\underset{Q}{\operatorname*{argmin}}\mathbb{E}_{(s,a,s')\sim\mathcal{D}}\Big[\Big(r(s,a)+\gamma\hat{Q}(\phi(s',\pi(\cdot|s')))-Q(\phi(s,a))\Big)^2\Big] Q=QargminE(s,a,s)D[(r(s,a)+γQ^(ϕ(s,π(s)))Q(ϕ(s,a)))2]

对于策略则是采用如下优化
argmax ⁡ π E ( s , a ) ∼ D [ α Q ( ϕ ( s , π ( ⋅ ∣ s ) ) ) − λ 1 ∥ z a π − z a ∥ 2 2 − λ 2 ℓ T − s y m ( ϕ ( s , π ( ⋅ ∣ s ) ) ) ] \operatorname{argmax}_{\pi}\mathbb{E}_{(s,a)\sim\mathcal{D}}\big[\alpha Q(\phi(s,\pi(\cdot|s)))-\lambda_{1}\|z_{a^{\pi}}-z_{a}\|_{2}^{2}-\lambda_{2}\ell_{T-sym}(\phi(s,\pi(\cdot|s)))\big] argmaxπE(s,a)D[αQ(ϕ(s,π(s)))λ1zaπza22λ2Tsym(ϕ(s,π(s)))]
其中添加了两种正则化项。第一项是限制隐变量偏差,第二项则是使得样本符合T-对称,这使得即使面对OOD的数据,如果与数据集中的一些潜在动作具有相似的隐空间特征表示,并且与满足TDM 中的 T 对称属性一致,那么可以期望这些操作之间存在一定程度的等价性。通过在可靠的 OOD 区域上实现策略学习和泛化,这导致了更宽松的策略约束,这对于小数据集设置至关重要。

数据增强

对隐空间变量进行数据增强即添加扰动项 ( z s , z a ) ↦ ( z s + ϵ , z a ) , (z_{s},z_{a})\mapsto(z_{s}+\epsilon,z_{a}), (zs,za)(zs+ϵ,za),。前向模型 z ˙ s = f ( z s , z a ) \dot{z}_s=f(z_s,z_a) z˙s=f(zs,za)则满足 z s ′ + ϵ ′ = z s + ϵ + f ( z s + ϵ , z a ) . z_{s'}+\epsilon'=z_{s}+\epsilon+f(z_{s}+\epsilon,z_{a}). zs+ϵ=zs+ϵ+f(zs+ϵ,za).。反向模型中则是 − z ˙ s = g ( z s ′ , z a ) a s : z s + ϵ ′ ′ = z s ′ + ϵ ′ + g ( z s ′ + ϵ ′ , z a ) -\dot{z}_{s}=g(z_{s^{\prime}},z_{a})\mathrm{as:}z_{s}+\epsilon^{\prime\prime}=z_{s^{\prime}}+\epsilon^{\prime}+g(z_{s^{\prime}}+\epsilon^{\prime},z_{a}) z˙s=g(zs,za)as:zs+ϵ′′=zs+ϵ+g(zs+ϵ,za)。为了满足T-对称则需要使得 ϵ ′ ′ = ϵ \epsilon''=\epsilon ϵ′′=ϵ
ϵ ′ ′ − ϵ = f ( z s + ϵ , z a ) + g ( z s + ϵ + f ( z s + ϵ , z a ) , z a ) = 0 \epsilon''-\epsilon=f(z_s+\epsilon,z_a)+g(z_s+\epsilon+f(z_s+\epsilon,z_a),z_a)=0 ϵ′′ϵ=f(zs+ϵ,za)+g(zs+ϵ+f(zs+ϵ,za),za)=0
该式等价于原始 ℓ T − s y m \ell_{T-sym} Tsym输入项添加扰动即 ℓ T − s y m ( z s + ϵ , z a ) = 0 \ell_{T-sym}(z_s+\epsilon,z_a)=0 Tsym(zs+ϵ,za)=0.。在实际操作中,设置 ℓ T − s y m ( z s + ϵ , z a ) < h \ell_{T-sym}(z_s+\epsilon,z_a)<h Tsym(zs+ϵ,za)<h,该值为所有(s,a)的 ℓ T − s y m ( ϕ ( s , a ) ) \ell_{T-sym}(\phi(s,a)) Tsym(ϕ(s,a))的分位数值(实际取50%或者70%)

伪代码

在这里插入图片描述

Results

在这里插入图片描述
能够看出技术在小数据集上,算法也有不错的效果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值