Offline RL :When Demonstrations meet Generative World Models: A Maximum Likelihood Framework...

文章探讨了离线环境中如何通过双层优化策略估计奖励函数和世界模型,以减少分布偏移带来的误差。策略优化采用SoftQ-learning和SAC技术,奖励函数更新则依赖于采样策略的梯度估计。
摘要由CSDN通过智能技术生成

NIPS 2023 oral
Keywords: Model-based Offline IRL
paper

1 Introduction

在这里插入图片描述
离线IRL旨在利用离线专家数据恢复奖励函数以及环境动态结构。由于分布偏移问题,从固定数据集恢复的环境模型不准确,容易导致奖励函数估计存在误差。本文采用双层优化(Bi-level optimization)对二者进行交替优化。基于下层专家策略实现上层保守模型似然最大化。由图1可以看出方法分为两阶段:利用离线数据估计世界模型,并采用不确定估计技术不确定性度量,对高模型不确定性和低覆盖率的(s,a)进行惩罚,避免在不熟悉区域探索。第二阶段则是恢复奖励函数.

2 Preliminaries

给定数据集 D : = ( s , a , s ′ ) D:={(s,a,s')} D:=(s,a,s),训练世界模型 P ^ ( s ′ ∣ s , a ) \hat{P}(s'|s,a) P^(ss,a),基于此,model-based IRL的优化问题为:
max ⁡ θ L ( θ ) : = E τ E ∼ ( η , π E , P ) [ ∑ t = 0 ∞ γ t log ⁡ π θ ( a t ∣ s t ) ] s . t . π θ : = arg ⁡ max ⁡ π E τ A ∼ ( η , π , P ^ ) [ ∑ t = 0 ∞ γ t ( r ( s t , a t ; θ ) + U ( s t , a t ) + H ( π ( ⋅ ∣ s t ) ) ) ] \begin{aligned}\max_{\theta}L(\theta)&:=\mathbb{E}_{\tau^\mathrm{E}\sim(\eta,\pi^\mathrm{E},P)}\left[\sum_{t=0}^{\infty}\gamma^t\log\pi_\theta(a_t|s_t)\right]\\s.t.\pi_\theta&:=\arg\max_{\pi}\mathbb{E}_{\tau^\mathrm{A}\sim(\eta,\pi,\widehat{P})}\bigg[\sum_{t=0}^{\infty}\gamma^t\bigg(r(s_t,a_t;\theta)+U(s_t,a_t)+\mathcal{H}\big(\pi(\cdot|s_t)\big)\bigg)\bigg]\end{aligned} θmaxL(θ)s.t.πθ:=EτE(η,πE,P)[t=0γtlogπθ(atst)]:=argπmaxEτA(η,π,P )[t=0γt(r(st,at;θ)+U(st,at)+H(π(st)))]
其中 H ( π ( ⋅ ∣ s ) ) : = ∑ a ∈ A − π ( a ∣ s ) log ⁡ π ( a ∣ s ) \mathcal{H}(\pi(\cdot|s)):=\sum_{a\in\mathcal{A}}-\pi(a|s)\log\pi(a|s) H(π(s)):=aAπ(as)logπ(as);U代表对世界模型 P ^ \hat{P} P^不确定性度量的惩罚项;

上述问题优化为Bi-level问题。s.t.代表的low-level问题固定奖励函数优化策略;high-level则是固定策略优化奖励函数,使得最优策略 π θ \pi_\theta πθ在专家数据的对数似然最大。

其次,将对数似然作为优化目标是合理的,因为它在对世界有限的认知范围下( P ^ \hat{P} P^由D得到)搜索最有奖励函数,来解释专家行为。

low-level问题下得到的策略是保守的,因为包含代表不确定性惩罚以及正则化的U。确保最优策略不会再不熟悉区域探索。

3 Method

基于奖励函数以及世界模型,构造Q以及V
Q k ( s , a ) : = r ( s , a ; θ k ) + U ( s , a ) + γ E s ′ ∼ P ^ ( ⋅ ∣ s , a ) [ V k ( s ′ ) ] V k ( s ) : = E τ ∼ ( η , π k , P ^ ) [ ∑ t = 0 ∞ γ t ( r ( s t , a t ; θ k ) + U ( s t , a t ) + H ( π k ( ⋅ ∣ s t ) ) ) ∣ s 0 = s ] \begin{aligned} &Q_{k}(s,a):=r(s,a;\theta_{k})+U(s,a)+\gamma\mathbb{E}_{s'\sim\widehat{P}(\cdot|s,a)}\big[V_{k}(s')\big] \\ &V_{k}(s):=\mathbb{E}_{\tau\sim(\eta,\pi_{k},\hat{P})}\Big[\left.\sum_{t=0}^{\infty}\gamma^{t}\big(r(s_{t},a_{t};\theta_{k})+U(s_{t},a_{t})+\mathcal{H}(\pi_{k}(\cdot|s_{t}))\big)\right|s_{0}=s\Big] \end{aligned} Qk(s,a):=r(s,a;θk)+U(s,a)+γEsP (s,a)[Vk(s)]Vk(s):=Eτ(η,πk,P^)[t=0γt(r(st,at;θk)+U(st,at)+H(πk(st))) s0=s]
类似于SAC构造基于熵的策略形式:
π θ ( a ∣ s ) = exp ⁡ Q θ ( s , a ) ∑ a ~ ∈ A exp ⁡ Q θ ( s , a ~ ) , V θ ( s ) = log ⁡ ( ∑ a ∈ A exp ⁡ Q θ ( s , a ) ) \pi_\theta(a|s)=\frac{\exp Q_\theta(s,a)}{\sum_{\tilde{a}\in\mathcal{A}}\exp Q_\theta(s,\tilde{a})},\quad V_\theta(s)=\log\Big(\sum_{a\in A}\exp Q_\theta(s,a)\Big) πθ(as)=a~AexpQθ(s,a~)expQθ(s,a),Vθ(s)=log(aAexpQθ(s,a))

将该策略带入到原问题,可以将原问题分解为 L ^ \widehat{L} L 与动力学模型误差项。文章接下来假设奖励函数以及模型惩罚项U存在bound,那么 L ^ \widehat{L} L L L L之间的差距是被专家状态动作分布下的模型误差bound
在这里插入图片描述
上述引理说明随着在线收集数据逐渐覆盖专家(s,a)的分布,那么 L ^ \widehat{L} L 的最优解可以近似原问题的解。

待优化问题为:
max ⁡ θ L ^ ( θ ) , s.t. π θ : = arg ⁡ max ⁡ π E τ Λ ∼ ( η , π , I ^ λ ) [ ∑ ℓ = 0 ∞ γ ℓ ( r ( s ℓ , a ℓ ; θ ) + U ( s ℓ , a ℓ ) + H ( π ( ⋅ ∣ s ℓ ) ) ) ] \max_{\theta}\widehat{L}(\theta),\quad\text{s.t.}\quad\pi_{\theta}:=\arg\max_{\pi}\mathbb{E}_{\tau^{\Lambda}\sim(\eta,\pi,\widehat{I}^{\lambda})}\Big[\sum_{\ell=0}^{\infty}\gamma^{\ell}\Big(r(s_{\ell},a_{\ell};\theta)+U(s_{\ell},a_{\ell})+\mathcal{H}\big(\pi(\cdot|s_{\ell})\big)\Big)\Big] θmaxL (θ),s.t.πθ:=argπmaxEτΛ(η,π,I λ)[=0γ(r(s,a;θ)+U(s,a)+H(π(s)))]
其中 L ^ ( θ ) : = E τ E ∼ ( η , π E , P ) [ ∑ t = 0 ∞ γ t ( r ( s t , a t ; θ ) + U ( s t , a t ) ) ] − E s 0 ∼ η ( ⋅ ) [ V θ ( s 0 ) ] \widehat{L}(\theta):=\mathbb{E}_{\tau^\mathrm{E}\sim(\eta,\pi^\mathrm{E},P)}\Big[\sum_{t=0}^{\infty}\gamma^t\Big(r(s_t,a_t;\theta)+U(s_t,a_t)\Big)\Big]-\mathbb{E}_{s_0\sim\eta(\cdot)}\Big[V_\theta(s_0)\Big] L (θ):=EτE(η,πE,P)[t=0γt(r(st,at;θ)+U(st,at))]Es0η()[Vθ(s0)]
上层问题优化奖励函数,下层问题优化策略函数。双层优化分两步:1)保守策略改进2)奖励函数更新

3.1 policy improvement

为了执行策略改进步骤,首先使用 Q ^ k \widehat{Q}_k Q k来近似软q函数,该估计满足以下条件
∥ Q k ^ − Q k ∥ ∞ : = max ⁡ s ∈ S , a ∈ A ∣ Q k ^ ( s , a ) − Q k ( s , a ) ∣ ≤ ϵ a p p . \|\hat{Q_k}-Q_k\|_\infty:=\max_{s\in\mathcal{S},a\in\mathcal{A}}|\hat{Q_k}(s,a)-Q_k(s,a)|\leq\epsilon_{\mathrm{app}}. Qk^Qk:=sS,aAmaxQk^(s,a)Qk(s,a)ϵapp.
得到近似的 Q ^ k , \widehat{Q}_k, Q k, 利用soft policy iteration得到策略表示 π k + 1 ( a ∣ s ) ∝ exp ⁡ ( Q ^ k ( s , a ) ) , ∀ s ∈ S , a ∈ A . \pi_{k+1}(a|s)\propto\exp\left(\widehat{Q}_k(s,a)\right),\quad\forall s\in\mathcal{S},a\in\mathcal{A}. πk+1(as)exp(Q k(s,a)),sS,aA.

在实践中,可以采用soft Q-learning和SAC,以获得精确逼近的软q函数,从而实现策略迭代的稳定更新。

3.2 Reward optimization

第k次迭代,根据奖励 θ k \theta_k θk、改进后策略 π k + 1 \pi_{k+1} πk+1,优化得到改进后的奖励 θ k + 1 \theta_{k+1} θk+1。原问题为最大化 L ^ ( θ ) \widehat{L}(\theta) L (θ),因此可采用梯度上升更新。首先计算目标问题梯度 ∇ L ^ ( θ k ) \nabla\widehat{L}(\theta_{k}) L (θk)

而原high-level问题梯度可以表示为(证明过程见原文的Appendix F)
∇ L ^ ( θ ) = E τ E ∼ ( η , π E , P ) [ ∑ t = 0 ∞ γ t ∇ θ r ( s t , a t ; θ ) ] − E τ A ∼ ( η , π θ , P ^ ) [ ∑ t = 0 ∞ γ t ∇ θ r ( s t , a t ; θ ) ] \nabla\widehat{L}(\theta)=\mathbb{E}_{\tau^\mathrm{E}\sim(\eta,\pi^\mathrm{E},P)}\Big[\sum_{t=0}^{\infty}\gamma^t\nabla_\theta r(s_t,a_t;\theta)\Big]-\mathbb{E}_{\tau^\mathrm{A}\sim(\eta,\pi_\theta,\widehat{P})}\Big[\sum_{t=0}^{\infty}\gamma^t\nabla_\theta r(s_t,a_t;\theta)\Big] L (θ)=EτE(η,πE,P)[t=0γtθr(st,at;θ)]EτA(η,πθ,P )[t=0γtθr(st,at;θ)]
在实践中,由于在每个奖励函数下反复求解最优策略 π θ \pi_\theta πθ在计算量上太大,因此采用基于 π k + 1 \pi_{k+1} πk+1构造精确梯度估计量。特别的,采用两部进行数据收集:1)选择一个专家轨迹 τ k E \tau_k^E τkE 2)基于世界模型以及 π k + 1 \pi_{k+1} πk+1得到轨迹 τ k A \tau_k^A τkA ∇ L ^ ( θ k ) \nabla\widehat{L}(\theta_k) L (θk)可以进一步简写为: g k : = h ( θ k ; τ k E ) − h ( θ k ; τ k A ) g_k:=h(\theta_k;\tau_k^\mathrm{E})-h(\theta_k;\tau_k^\mathrm{A}) gk:=h(θk;τkE)h(θk;τkA)

其中 h ( θ ; τ ) : = ∑ t = 0 ∞ γ t ∇ θ r ( s t , a t ; θ ) h(\theta;\tau):=\sum_{t=0}^\infty\gamma^t\nabla_\theta r(s_t,a_t;\theta) h(θ;τ):=t=0γtθr(st,at;θ)。进一步,通过梯度上升更新奖励函数
θ k + 1 = θ k + α g k \theta_{k+1}=\theta_k+\alpha g_k θk+1=θk+αgk
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值