NIPS 2023 oral
Keywords: Model-based Offline IRL
paper
1 Introduction
离线IRL旨在利用离线专家数据恢复奖励函数以及环境动态结构。由于分布偏移问题,从固定数据集恢复的环境模型不准确,容易导致奖励函数估计存在误差。本文采用双层优化(Bi-level optimization)对二者进行交替优化。基于下层专家策略实现上层保守模型似然最大化。由图1可以看出方法分为两阶段:利用离线数据估计世界模型,并采用不确定估计技术不确定性度量,对高模型不确定性和低覆盖率的(s,a)进行惩罚,避免在不熟悉区域探索。第二阶段则是恢复奖励函数.
2 Preliminaries
给定数据集
D
:
=
(
s
,
a
,
s
′
)
D:={(s,a,s')}
D:=(s,a,s′),训练世界模型
P
^
(
s
′
∣
s
,
a
)
\hat{P}(s'|s,a)
P^(s′∣s,a),基于此,model-based IRL的优化问题为:
max
θ
L
(
θ
)
:
=
E
τ
E
∼
(
η
,
π
E
,
P
)
[
∑
t
=
0
∞
γ
t
log
π
θ
(
a
t
∣
s
t
)
]
s
.
t
.
π
θ
:
=
arg
max
π
E
τ
A
∼
(
η
,
π
,
P
^
)
[
∑
t
=
0
∞
γ
t
(
r
(
s
t
,
a
t
;
θ
)
+
U
(
s
t
,
a
t
)
+
H
(
π
(
⋅
∣
s
t
)
)
)
]
\begin{aligned}\max_{\theta}L(\theta)&:=\mathbb{E}_{\tau^\mathrm{E}\sim(\eta,\pi^\mathrm{E},P)}\left[\sum_{t=0}^{\infty}\gamma^t\log\pi_\theta(a_t|s_t)\right]\\s.t.\pi_\theta&:=\arg\max_{\pi}\mathbb{E}_{\tau^\mathrm{A}\sim(\eta,\pi,\widehat{P})}\bigg[\sum_{t=0}^{\infty}\gamma^t\bigg(r(s_t,a_t;\theta)+U(s_t,a_t)+\mathcal{H}\big(\pi(\cdot|s_t)\big)\bigg)\bigg]\end{aligned}
θmaxL(θ)s.t.πθ:=EτE∼(η,πE,P)[t=0∑∞γtlogπθ(at∣st)]:=argπmaxEτA∼(η,π,P
)[t=0∑∞γt(r(st,at;θ)+U(st,at)+H(π(⋅∣st)))]
其中
H
(
π
(
⋅
∣
s
)
)
:
=
∑
a
∈
A
−
π
(
a
∣
s
)
log
π
(
a
∣
s
)
\mathcal{H}(\pi(\cdot|s)):=\sum_{a\in\mathcal{A}}-\pi(a|s)\log\pi(a|s)
H(π(⋅∣s)):=∑a∈A−π(a∣s)logπ(a∣s);U代表对世界模型
P
^
\hat{P}
P^不确定性度量的惩罚项;
上述问题优化为Bi-level问题。s.t.代表的low-level问题固定奖励函数优化策略;high-level则是固定策略优化奖励函数,使得最优策略 π θ \pi_\theta πθ在专家数据的对数似然最大。
其次,将对数似然作为优化目标是合理的,因为它在对世界有限的认知范围下( P ^ \hat{P} P^由D得到)搜索最有奖励函数,来解释专家行为。
low-level问题下得到的策略是保守的,因为包含代表不确定性惩罚以及正则化的U。确保最优策略不会再不熟悉区域探索。
3 Method
基于奖励函数以及世界模型,构造Q以及V
Q
k
(
s
,
a
)
:
=
r
(
s
,
a
;
θ
k
)
+
U
(
s
,
a
)
+
γ
E
s
′
∼
P
^
(
⋅
∣
s
,
a
)
[
V
k
(
s
′
)
]
V
k
(
s
)
:
=
E
τ
∼
(
η
,
π
k
,
P
^
)
[
∑
t
=
0
∞
γ
t
(
r
(
s
t
,
a
t
;
θ
k
)
+
U
(
s
t
,
a
t
)
+
H
(
π
k
(
⋅
∣
s
t
)
)
)
∣
s
0
=
s
]
\begin{aligned} &Q_{k}(s,a):=r(s,a;\theta_{k})+U(s,a)+\gamma\mathbb{E}_{s'\sim\widehat{P}(\cdot|s,a)}\big[V_{k}(s')\big] \\ &V_{k}(s):=\mathbb{E}_{\tau\sim(\eta,\pi_{k},\hat{P})}\Big[\left.\sum_{t=0}^{\infty}\gamma^{t}\big(r(s_{t},a_{t};\theta_{k})+U(s_{t},a_{t})+\mathcal{H}(\pi_{k}(\cdot|s_{t}))\big)\right|s_{0}=s\Big] \end{aligned}
Qk(s,a):=r(s,a;θk)+U(s,a)+γEs′∼P
(⋅∣s,a)[Vk(s′)]Vk(s):=Eτ∼(η,πk,P^)[t=0∑∞γt(r(st,at;θk)+U(st,at)+H(πk(⋅∣st)))
s0=s]
类似于SAC构造基于熵的策略形式:
π
θ
(
a
∣
s
)
=
exp
Q
θ
(
s
,
a
)
∑
a
~
∈
A
exp
Q
θ
(
s
,
a
~
)
,
V
θ
(
s
)
=
log
(
∑
a
∈
A
exp
Q
θ
(
s
,
a
)
)
\pi_\theta(a|s)=\frac{\exp Q_\theta(s,a)}{\sum_{\tilde{a}\in\mathcal{A}}\exp Q_\theta(s,\tilde{a})},\quad V_\theta(s)=\log\Big(\sum_{a\in A}\exp Q_\theta(s,a)\Big)
πθ(a∣s)=∑a~∈AexpQθ(s,a~)expQθ(s,a),Vθ(s)=log(a∈A∑expQθ(s,a))
将该策略带入到原问题,可以将原问题分解为
L
^
\widehat{L}
L
与动力学模型误差项。文章接下来假设奖励函数以及模型惩罚项U存在bound,那么
L
^
\widehat{L}
L
与
L
L
L之间的差距是被专家状态动作分布下的模型误差bound
上述引理说明随着在线收集数据逐渐覆盖专家(s,a)的分布,那么
L
^
\widehat{L}
L
的最优解可以近似原问题的解。
待优化问题为:
max
θ
L
^
(
θ
)
,
s.t.
π
θ
:
=
arg
max
π
E
τ
Λ
∼
(
η
,
π
,
I
^
λ
)
[
∑
ℓ
=
0
∞
γ
ℓ
(
r
(
s
ℓ
,
a
ℓ
;
θ
)
+
U
(
s
ℓ
,
a
ℓ
)
+
H
(
π
(
⋅
∣
s
ℓ
)
)
)
]
\max_{\theta}\widehat{L}(\theta),\quad\text{s.t.}\quad\pi_{\theta}:=\arg\max_{\pi}\mathbb{E}_{\tau^{\Lambda}\sim(\eta,\pi,\widehat{I}^{\lambda})}\Big[\sum_{\ell=0}^{\infty}\gamma^{\ell}\Big(r(s_{\ell},a_{\ell};\theta)+U(s_{\ell},a_{\ell})+\mathcal{H}\big(\pi(\cdot|s_{\ell})\big)\Big)\Big]
θmaxL
(θ),s.t.πθ:=argπmaxEτΛ∼(η,π,I
λ)[ℓ=0∑∞γℓ(r(sℓ,aℓ;θ)+U(sℓ,aℓ)+H(π(⋅∣sℓ)))]
其中
L
^
(
θ
)
:
=
E
τ
E
∼
(
η
,
π
E
,
P
)
[
∑
t
=
0
∞
γ
t
(
r
(
s
t
,
a
t
;
θ
)
+
U
(
s
t
,
a
t
)
)
]
−
E
s
0
∼
η
(
⋅
)
[
V
θ
(
s
0
)
]
\widehat{L}(\theta):=\mathbb{E}_{\tau^\mathrm{E}\sim(\eta,\pi^\mathrm{E},P)}\Big[\sum_{t=0}^{\infty}\gamma^t\Big(r(s_t,a_t;\theta)+U(s_t,a_t)\Big)\Big]-\mathbb{E}_{s_0\sim\eta(\cdot)}\Big[V_\theta(s_0)\Big]
L
(θ):=EτE∼(η,πE,P)[∑t=0∞γt(r(st,at;θ)+U(st,at))]−Es0∼η(⋅)[Vθ(s0)]
上层问题优化奖励函数,下层问题优化策略函数。双层优化分两步:1)保守策略改进2)奖励函数更新
3.1 policy improvement
为了执行策略改进步骤,首先使用
Q
^
k
\widehat{Q}_k
Q
k来近似软q函数,该估计满足以下条件
∥
Q
k
^
−
Q
k
∥
∞
:
=
max
s
∈
S
,
a
∈
A
∣
Q
k
^
(
s
,
a
)
−
Q
k
(
s
,
a
)
∣
≤
ϵ
a
p
p
.
\|\hat{Q_k}-Q_k\|_\infty:=\max_{s\in\mathcal{S},a\in\mathcal{A}}|\hat{Q_k}(s,a)-Q_k(s,a)|\leq\epsilon_{\mathrm{app}}.
∥Qk^−Qk∥∞:=s∈S,a∈Amax∣Qk^(s,a)−Qk(s,a)∣≤ϵapp.
得到近似的
Q
^
k
,
\widehat{Q}_k,
Q
k, 利用soft policy iteration得到策略表示
π
k
+
1
(
a
∣
s
)
∝
exp
(
Q
^
k
(
s
,
a
)
)
,
∀
s
∈
S
,
a
∈
A
.
\pi_{k+1}(a|s)\propto\exp\left(\widehat{Q}_k(s,a)\right),\quad\forall s\in\mathcal{S},a\in\mathcal{A}.
πk+1(a∣s)∝exp(Q
k(s,a)),∀s∈S,a∈A.
在实践中,可以采用soft Q-learning和SAC,以获得精确逼近的软q函数,从而实现策略迭代的稳定更新。
3.2 Reward optimization
第k次迭代,根据奖励 θ k \theta_k θk、改进后策略 π k + 1 \pi_{k+1} πk+1,优化得到改进后的奖励 θ k + 1 \theta_{k+1} θk+1。原问题为最大化 L ^ ( θ ) \widehat{L}(\theta) L (θ),因此可采用梯度上升更新。首先计算目标问题梯度 ∇ L ^ ( θ k ) \nabla\widehat{L}(\theta_{k}) ∇L (θk)。
而原high-level问题梯度可以表示为(证明过程见原文的Appendix F)
∇
L
^
(
θ
)
=
E
τ
E
∼
(
η
,
π
E
,
P
)
[
∑
t
=
0
∞
γ
t
∇
θ
r
(
s
t
,
a
t
;
θ
)
]
−
E
τ
A
∼
(
η
,
π
θ
,
P
^
)
[
∑
t
=
0
∞
γ
t
∇
θ
r
(
s
t
,
a
t
;
θ
)
]
\nabla\widehat{L}(\theta)=\mathbb{E}_{\tau^\mathrm{E}\sim(\eta,\pi^\mathrm{E},P)}\Big[\sum_{t=0}^{\infty}\gamma^t\nabla_\theta r(s_t,a_t;\theta)\Big]-\mathbb{E}_{\tau^\mathrm{A}\sim(\eta,\pi_\theta,\widehat{P})}\Big[\sum_{t=0}^{\infty}\gamma^t\nabla_\theta r(s_t,a_t;\theta)\Big]
∇L
(θ)=EτE∼(η,πE,P)[t=0∑∞γt∇θr(st,at;θ)]−EτA∼(η,πθ,P
)[t=0∑∞γt∇θr(st,at;θ)]
在实践中,由于在每个奖励函数下反复求解最优策略
π
θ
\pi_\theta
πθ在计算量上太大,因此采用基于
π
k
+
1
\pi_{k+1}
πk+1构造精确梯度估计量。特别的,采用两部进行数据收集:1)选择一个专家轨迹
τ
k
E
\tau_k^E
τkE 2)基于世界模型以及
π
k
+
1
\pi_{k+1}
πk+1得到轨迹
τ
k
A
\tau_k^A
τkA。
∇
L
^
(
θ
k
)
\nabla\widehat{L}(\theta_k)
∇L
(θk)可以进一步简写为:
g
k
:
=
h
(
θ
k
;
τ
k
E
)
−
h
(
θ
k
;
τ
k
A
)
g_k:=h(\theta_k;\tau_k^\mathrm{E})-h(\theta_k;\tau_k^\mathrm{A})
gk:=h(θk;τkE)−h(θk;τkA)
其中
h
(
θ
;
τ
)
:
=
∑
t
=
0
∞
γ
t
∇
θ
r
(
s
t
,
a
t
;
θ
)
h(\theta;\tau):=\sum_{t=0}^\infty\gamma^t\nabla_\theta r(s_t,a_t;\theta)
h(θ;τ):=∑t=0∞γt∇θr(st,at;θ)。进一步,通过梯度上升更新奖励函数
θ
k
+
1
=
θ
k
+
α
g
k
\theta_{k+1}=\theta_k+\alpha g_k
θk+1=θk+αgk