IJCNN 2023
paper
code
在PBRL的悲观价值估计的基础上,添加一个基于VAE的ELBO的密度估计权重。同时,将算法进一步推广到在线阶段,实现乐观的价值估计。
Intro
离线强化学习时长因为OOD数据导致价值函数的错误估计。离线RL通常使用策略约束、价值函数正则化或不确定性估计等方法,使学习到的策略接近行为策略。然而,策略约束方法会限制策略在次优行为策略附近的区域;价值函数正则化方法不能准确评估OOD(Out-of-Distribution,即分布外)行为,可能导致在估计接近分布的行为的Q值时过于保守;不确定性估计可能因为复杂环境或训练初期的不准确估值而产生偏差。
本文使用Density-UCR(基于密度估计的不确定性评论家正则化)来解决这些问题。Density-UCR通过为Q函数估计提供低置信区间(LCB)并使用集成Q函数的估计误差作为惩罚值来惩罚OOD行为。此外,Density-UCR使用密度估计器对离线数据的分布进行建模,以获得更准确的惩罚值的不确定性权重。该方法还将不确定性估计用作优先级重放缓冲区的权重,以增加在线微调的稳定性,并防止离线样本相对于在线样本的分布变化导致性能下降。实验表明,Density-UCR在D4RL基准测试中显著优于传统的策略约束方法和价值函数正则化方法,并且在微调性能方面表现优异。
Method
Explicit Estimation of Behavioral Density Distribution
max
Φ
,
Ψ
E
q
Φ
(
z
∣
s
,
a
)
[
p
Ψ
(
a
∣
s
,
z
)
]
−
β
D
K
L
[
q
Φ
(
z
∣
s
,
a
)
∣
∣
p
(
z
∣
s
)
]
]
≐
L
E
L
B
O
(
s
,
a
;
Φ
,
Ψ
)
\begin{aligned}\max_{\Phi,\Psi}\mathbb{E}_{q_{\Phi}(z|s,a)}\left[p_{\Psi}(a|s,z)\right]-\beta D_{KL}\left[q_{\Phi}(z|s,a)||p(z|s)\right]]\doteq\mathcal{L}_{ELBO}(s,a;\Phi,\Psi)\end{aligned}
Φ,ΨmaxEqΦ(z∣s,a)[pΨ(a∣s,z)]−βDKL[qΦ(z∣s,a)∣∣p(z∣s)]]≐LELBO(s,a;Φ,Ψ)
采用VAE对离线数据中的状态动作密度分布进行估计。该ELBO将作为权重值衡量不确定性
Offline Pessimistic Learning
类似PBRL,对分布内以及分布外的数据分别进行悲观Q估计。对于分布内
B
i
n
Q
ϕ
k
(
s
,
a
)
:
=
r
(
s
,
a
)
+
γ
E
s
′
∼
T
,
a
′
∼
π
θ
[
min
i
=
1
,
.
.
.
,
N
Q
ϕ
i
′
(
s
′
,
a
′
)
−
α
i
n
L
E
L
B
O
(
s
′
,
a
′
;
Φ
,
Ψ
)
P
′
(
s
′
,
a
′
)
]
\mathfrak{B}^{in}Q_{\phi_{k}}(s,a):=r(s,a)+\gamma\mathbb{E}_{s^{\prime}\sim T,a^{\prime}\sim\pi_{\theta}}[\min_{i=1,...,N}Q_{\phi_{i}^{\prime}}(s^{\prime},a^{\prime})-\alpha_{in}\mathcal{L}_{ELBO}(s^{\prime},a^{\prime};\Phi,\Psi)\mathcal{P}^{\prime}(s^{\prime},a^{\prime})]
BinQϕk(s,a):=r(s,a)+γEs′∼T,a′∼πθ[i=1,...,NminQϕi′(s′,a′)−αinLELBO(s′,a′;Φ,Ψ)P′(s′,a′)]
对于OOD的数据
B
o
o
d
Q
ϕ
k
(
s
,
a
o
o
d
)
:
=
Q
ϕ
k
(
s
,
a
o
o
d
)
−
α
o
o
d
L
E
L
B
O
(
s
,
a
o
o
d
;
Φ
,
Ψ
)
P
(
s
,
a
o
o
d
)
\mathfrak{B}^{ood}Q_{\phi_{k}}(s,a^{ood}):=Q_{\phi_{k}}(s,a^{ood})-\alpha_{ood}\mathcal{L}_{ELBO}(s,a^{ood};\Phi,\Psi)\mathcal{P}(s,a^{ood})
BoodQϕk(s,aood):=Qϕk(s,aood)−αoodLELBO(s,aood;Φ,Ψ)P(s,aood)
二者联合优化
L
c
r
i
t
i
c
o
f
f
l
i
n
e
=
E
(
s
,
a
,
r
,
s
′
)
∼
D
o
f
f
[
(
B
i
n
Q
ϕ
k
−
Q
ϕ
k
)
2
]
+
E
s
∼
D
o
f
f
,
a
o
o
d
∼
π
θ
[
(
B
o
o
d
Q
ϕ
k
−
Q
ϕ
k
)
2
]
\begin{aligned}\mathcal{L}_{critic}^{offline}&=\mathbb{E}_{(s,a,r,s^{\prime})\sim\mathcal{D}_{off}}[(\mathfrak{B}^{in}Q_{\phi_{k}}-Q_{\phi_{k}})^{2}]+\mathbb{E}_{s\sim\mathcal{D}_{off},a^{ood}\sim\pi_{\theta}}[(\mathfrak{B}^{ood}Q_{\phi_{k}}-Q_{\phi_{k}})^{2}]\end{aligned}
Lcriticoffline=E(s,a,r,s′)∼Doff[(BinQϕk−Qϕk)2]+Es∼Doff,aood∼πθ[(BoodQϕk−Qϕk)2]
策略优化则是最小化
L
p
o
l
i
c
y
o
f
f
l
i
n
e
=
E
s
∼
D
o
f
f
,
a
′
∼
π
θ
(
⋅
∣
s
)
[
−
min
k
=
1
,
.
.
.
,
N
Q
ϕ
k
(
s
,
a
′
)
]
\mathcal{L}_{policy}^{offline}=\mathbb{E}_{s\sim\mathcal{D}_{off},a^{\prime}\sim\pi_{\theta}(\cdot|s)}\left[-\min_{k=1,...,N}Q_{\phi_{k}}(s,a^{\prime})\right]
Lpolicyoffline=Es∼Doff,a′∼πθ(⋅∣s)[−mink=1,...,NQϕk(s,a′)]
Online Phase
Priority Experience Replay
将离线数据中累计reward最高的50条轨迹初始化在线Buffer,同时优先经验回访机制的Buffer,对样本的采样概率受ELBO影响
w
(
s
,
a
)
=
σ
(
−
2.0
∗
L
E
L
B
O
(
s
,
a
;
Φ
,
Ψ
)
)
,
σ
(
x
)
=
1
1
+
e
−
x
.
w(s,a)=\sigma(-2.0*\mathcal{L}_{ELBO}(s,a;\Phi,\Psi)), ~~~~~~~\sigma(x)=\frac1{1+e^{-x}}.
w(s,a)=σ(−2.0∗LELBO(s,a;Φ,Ψ)), σ(x)=1+e−x1.
同时,为了防止离线阶段悲观的价值估计导致在线阶段策略探索能力不足,采用乐观的Q估计
B
o
n
Q
ϕ
k
(
s
,
a
)
:
=
r
(
s
,
a
)
+
γ
E
s
′
∼
T
,
a
′
∼
π
θ
[
Q
ϕ
′
(
s
′
,
a
′
)
+
α
o
n
L
E
L
B
O
(
s
′
,
a
′
;
Φ
,
Ψ
)
P
′
(
s
′
,
a
′
)
]
\begin{aligned}\mathfrak{B}^{on}Q_{\phi_{k}}(s,a)&:=r(s,a)+\gamma\mathbb{E}_{s'\sim T,a'\sim\pi_{\theta}}[Q_{\phi'}(s',a')\\&+\alpha_{on}\mathcal{L}_{ELBO}(s',a';\Phi,\Psi)\mathcal{P}'(s',a')]\end{aligned}
BonQϕk(s,a):=r(s,a)+γEs′∼T,a′∼πθ[Qϕ′(s′,a′)+αonLELBO(s′,a′;Φ,Ψ)P′(s′,a′)]
而Critic以及Actor估计如下
L
c
r
i
t
i
c
o
n
l
i
n
e
=
E
(
s
,
a
,
r
,
s
′
)
∼
D
o
n
[
(
B
o
n
Q
ϕ
k
−
Q
ϕ
k
)
2
]
L
p
o
l
i
c
y
o
n
l
i
n
e
=
E
s
∼
D
o
n
,
a
′
∼
π
θ
(
⋅
∣
s
)
[
−
min
k
=
1
,
.
.
.
,
N
Q
ϕ
k
(
s
,
a
′
)
]
\mathcal{L}_{critic}^{online}=\mathbb{E}_{(s,a,r,s')\sim\mathcal{D}_{on}}[(\mathfrak{B}^{on}Q_{\phi_k}-Q_{\phi_k})^2]\\ \mathcal{L}_{policy}^{online}=\underset{s\sim\mathcal{D}_{on},a^{\prime}\sim\pi_{\theta}(\cdot|s)}{\operatorname*{\mathbb{E}}}\left[-\underset{k=1,...,N}{\operatorname*{min}}Q_{\phi_{k}}(s,a^{\prime})\right]
Lcriticonline=E(s,a,r,s′)∼Don[(BonQϕk−Qϕk)2]Lpolicyonline=s∼Don,a′∼πθ(⋅∣s)E[−k=1,...,NminQϕk(s,a′)]
结果