ICLR 2022
paper
Intro
离线强化学习容易因为OOD数据导致外推误差。以往的方法采用保守Q估计或者是策略约束。这些方法限制对OOD数据价值泛化以及缺乏对这些数据的精确表征。本文提出悲观不确信度量的离线强化学习方法PBRL。
Method
为了有效对OOD数据精确表征,部分model-based 离线方法证明不确信度量方法的有效性,但是需要离线数据学习动力学模型。本文model-free的方法则是利用对多个Q函数进行不确信度量,并作为惩罚项加入Q函数的自举过程:
T
^
in
Q
θ
k
(
s
,
a
)
:
=
r
(
s
,
a
)
+
γ
E
^
s
′
∼
P
(
⋅
∣
s
,
a
)
,
a
′
∼
π
(
⋅
∣
s
)
[
Q
θ
−
k
(
s
′
,
a
′
)
−
β
in
U
θ
−
(
s
′
,
a
′
)
]
\widehat{\mathcal{T}}^\text{in}Q_\theta^k(s,a):=r(s,a)+\gamma\widehat{\mathbb{E}}_{s'\sim P(\cdot|s,a),a'\sim\pi(\cdot|s)}\Big[Q_{\theta^-}^k(s',a')-\beta_\text{in}\mathcal{U}_{\theta^-}(s',a')\Big]
T
inQθk(s,a):=r(s,a)+γE
s′∼P(⋅∣s,a),a′∼π(⋅∣s)[Qθ−k(s′,a′)−βinUθ−(s′,a′)]
其中不确信度量估计函数
U
\mathcal{U}
U则是采用多个Q的标准差:
U
(
s
,
a
)
:
=
Std
(
Q
k
(
s
,
a
)
)
=
1
K
∑
k
=
1
K
(
Q
k
(
s
,
a
)
−
Q
ˉ
(
s
,
a
)
)
2
\mathcal{U}(s,a):=\text{Std}(Q^k(s,a))=\sqrt{\frac{1}{K}\sum_{k=1}^K\left(Q^k(s,a)-\bar{Q}(s,a)\right)^2}
U(s,a):=Std(Qk(s,a))=K1k=1∑K(Qk(s,a)−Qˉ(s,a))2
然而这些数据均是来自数据集
D
i
n
D_{in}
Din, 因此PBRL提出一种对OOD数据的估计方法。其中OOD的动作随机采样自均匀分布
T
^
o
o
d
Q
θ
k
(
s
o
o
d
,
a
o
o
d
)
:
=
Q
θ
k
(
s
o
o
d
,
a
o
o
d
)
−
β
o
o
d
U
θ
(
s
o
o
d
,
a
o
o
d
)
,
\widehat{\mathcal{T}}^{\mathrm{ood}}Q_\theta^k(s^{\mathrm{ood}},a^{\mathrm{ood}}):=Q_\theta^k(s^{\mathrm{ood}},a^{\mathrm{ood}})-\beta_{\mathrm{ood}}\mathcal{U}_\theta(s^{\mathrm{ood}},a^{\mathrm{ood}}),
T
oodQθk(sood,aood):=Qθk(sood,aood)−βoodUθ(sood,aood),
为了稳定早期训练过程对该值进行截断
max
{
0
,
T
o
o
d
Q
θ
k
(
s
o
o
d
,
a
o
o
d
)
}
\max\{0,\mathcal{T}^\mathrm{ood}Q_{\theta}^{k}(s^\mathrm{ood},a^\mathrm{ood})\}
max{0,ToodQθk(sood,aood)},同时参数
β
o
o
d
\beta_{\mathrm{ood}}
βood在训练过程中呈现递减的变化趋势,这是因为早期Q网络以及不确定性度量是不准确,因此需要较大值予以惩罚;而随着训练的进行,Q值逐渐预测准确,该惩罚应该渐渐减轻。
综上对Critic的估计由两部分构成:
L
critic
=
E
^
(
s
,
a
,
r
,
s
′
)
∼
D
in
[
(
T
^
in
Q
k
−
Q
k
)
2
]
+
E
^
s
ood
∼
D
in
,
a
ood
∼
π
[
(
T
^
ood
Q
k
−
Q
k
)
2
]
\mathcal{L}_{\text{critic}}=\widehat{\mathbb{E}}_{(s,a,r,s')\sim\mathcal{D}_{\text{in}}}\big[(\widehat{\mathcal{T}}^{\text{in}}Q^k-Q^k)^2\big]+\widehat{\mathbb{E}}_{s^{\text{ood}}\sim\mathcal{D}_{\text{in}},a^{\text{ood}}\sim\pi}\big[(\widehat{\mathcal{T}}^{\text{ood}}Q^k-Q^k)^2\big]
Lcritic=E
(s,a,r,s′)∼Din[(T
inQk−Qk)2]+E
sood∼Din,aood∼π[(T
oodQk−Qk)2]
而对于策略则是最大化Q函数优化,同时添加动作熵进行正则化:
π
φ
:
=
max
φ
E
^
s
∼
D
i
n
,
a
∼
π
(
⋅
∣
s
)
[
min
k
=
1
,
…
,
K
Q
k
(
s
,
a
)
−
log
π
(
a
π
∣
s
)
]
,
\pi_\varphi:=\max_\varphi\widehat{\mathbb{E}}_{s\sim\mathcal{D}_{\mathrm{in}},a_\sim\pi(\cdot|s)}\Big[\min_{k=1,\ldots,K}Q^k(s,a)-\log\pi(a_{\pi}|s)\Big],
πφ:=φmaxE
s∼Din,a∼π(⋅∣s)[k=1,…,KminQk(s,a)−logπ(aπ∣s)],