ICLR 2021
paper
Intro
本文的出发点是高效捕捉离线数据中种类繁多的行为。一种方法便是利用隐空间 z z z进行状态表征然后在其基础上扩展出新的行为 π ( a ∣ s , z ) \pi(a|s,z) π(a∣s,z)用于下游任务。
Method
OPAL算法分为三各阶段
1.第一阶段利用无奖励标签数据,通过最大化对数似然函数学习Primitive policy
π
θ
(
a
∣
s
,
z
)
\pi_\theta(a|s,z)
πθ(a∣s,z)
min
θ
,
ϕ
,
ω
J
(
θ
,
ϕ
,
ω
)
=
E
^
τ
∼
D
,
z
∼
q
ϕ
(
z
∣
τ
)
[
−
∑
t
=
0
c
−
1
log
π
θ
(
a
t
∣
s
t
,
z
)
]
s.t.
E
^
τ
∼
D
[
D
K
L
(
q
ϕ
(
z
∣
τ
)
∣
∣
ρ
ω
(
z
∣
s
0
)
)
]
≤
ϵ
K
L
\begin{aligned}\min_{\theta,\phi,\omega}J(\theta,\phi,\omega)&=\hat{\mathbb{E}}_{\tau\sim\mathcal{D},z\sim q_\phi(z|\tau)}\left[-\sum_{t=0}^{c-1}\log\pi_\theta(a_t|s_t,z)\right]\\\text{s.t. }&\hat{\mathbb{E}}_{\tau\sim\mathcal{D}}[\mathrm{D}_\mathrm{KL}(q_\phi(z|\tau)||\rho_\omega(z|s_0))]\leq\epsilon_\mathrm{KL}\end{aligned}
θ,ϕ,ωminJ(θ,ϕ,ω)s.t. =E^τ∼D,z∼qϕ(z∣τ)[−t=0∑c−1logπθ(at∣st,z)]E^τ∼D[DKL(qϕ(z∣τ)∣∣ρω(z∣s0))]≤ϵKL
KL散度约束条件保证了轨迹状态和初始状态在隐空间一致性,避免过拟合。而在实践中,则是将约束条件作为惩罚项加入到原问题,将其转化为无约束问题。
2. 第二阶段则是学习应用于下游任务的
π
ψ
(
z
∣
s
)
\pi_\psi(z|s)
πψ(z∣s)。这里采用
N
N
N个带奖励的轨迹数据集
D
r
=
{
τ
i
:
=
(
s
t
i
,
a
t
i
,
r
t
i
)
t
=
0
c
−
1
}
i
=
1
N
\mathcal{D}^{r}=\{\tau_{i}:=(s_{t}^i,a_{t}^i,r_{t}^i)_{t=0}^{c-1}\}_{i=1}^{N}
Dr={τi:=(sti,ati,rti)t=0c−1}i=1N,利用第一阶段的
q
ϕ
(
z
∣
τ
)
q_\phi(z|\tau)
qϕ(z∣τ),对轨迹数据重构得到
D
h
i
r
=
{
(
s
0
i
,
z
i
,
∑
t
=
0
c
−
1
γ
t
r
t
i
,
s
c
i
)
}
i
=
1
N
\mathcal{D}_{\mathrm{hi}}^{r}=\{(s_{0}^{i},z_{i},\sum_{t=0}^{c-1}\gamma^{t}r_{t}^{i},s_{c}^{i})\}_{i=1}^{N}
Dhir={(s0i,zi,∑t=0c−1γtrti,sci)}i=1N,基于该数据集采用任意offline RL算法(CQL)学习
π
ψ
(
z
∣
s
)
\pi_\psi(z|s)
πψ(z∣s)。同时,基于数据集
D
l
o
r
=
{
(
(
s
t
i
,
a
t
i
)
t
=
0
c
−
1
,
z
i
)
}
i
=
1
N
\mathcal{D}_{\mathrm{lo}}^{r}=\{((s_{t}^{i},a_{t}^{i})_{t=0}^{c-1},z_{i})\}_{i=1}^{N}
Dlor={((sti,ati)t=0c−1,zi)}i=1N最大化对数似然函数,进一步优化primitive policy
min
θ
E
^
(
τ
,
z
)
∼
D
lo
r
[
−
∑
t
=
0
c
−
1
log
π
θ
(
a
t
∣
s
t
,
z
)
]
\min_{\theta}\hat{\mathbb{E}}_{(\tau,z)\sim\mathcal{D}_{\text{lo}}^r}\left[-\sum_{t=0}^{c-1}\log\pi_\theta(a_t|s_t,z)\right]
θminE^(τ,z)∼Dlor[−t=0∑c−1logπθ(at∣st,z)]
3.第三阶段,便是利用
π
ψ
(
z
∣
s
)
\pi_\psi(z|s)
πψ(z∣s)与
π
θ
(
a
∣
s
,
z
)
\pi_\theta(a|s,z)
πθ(a∣s,z)预测动作