Intro
文章通过CQL分析指出离线阶段保守的价值估计会导致在线微调初始阶段出现performance drop,进而导致在现阶段需要浪费大量样本重新矫正Q函数。本文提出的Cal-QL便是通过离线阶段矫正Q函数从而避免在线初始阶段的drop。
Method
出现这种drop是离线阶段保守的价值估计,造成策略在线时,面对全新的数据出现错误的价值估计,而这种错误的估计结果很可能欺骗策略学习
直观的方法便是在离线阶段,放松Q的估计。因此,基于CQL的对Q优化目标,Cal-QL采用行为策略作为参考策略,并当作价值估计的下界值
J
Q
(
θ
)
:
=
α
(
E
s
∼
D
,
a
∼
π
[
max
(
Q
θ
(
s
,
a
)
,
Q
μ
(
s
,
a
)
)
]
−
E
s
,
a
∼
D
[
Q
θ
(
s
,
a
)
]
⏟
Calibrated conservative regularizer
R
(
θ
)
)
+
1
2
E
s
,
a
,
s
′
∼
D
[
(
Q
θ
(
s
,
a
)
−
B
π
Q
ˉ
(
s
,
a
)
)
2
]
J_{Q}(\theta):=\alpha\left(\underbrace{\mathbf{E}_{s\sim D,a\sim \pi}\left[\max\left(Q_{\theta}(s,a),Q^{\mu}(s,a)\right)\right]-\mathbf{E}_{s,a\sim D}\left[Q_{\theta}(s,a)\right]}_{\text{Calibrated conservative regularizer }\mathcal{R}(\theta)}\right)+\frac{1}{2}\mathbb{E}_{s,a,s^{\prime}\sim D}\left[\left(Q_{\theta}(s,a)-B^{\pi}\bar{Q}(s,a)\right)^{2}\right]
JQ(θ):=α
Calibrated conservative regularizer R(θ)
Es∼D,a∼π[max(Qθ(s,a),Qμ(s,a))]−Es,a∼D[Qθ(s,a)]
+21Es,a,s′∼D[(Qθ(s,a)−BπQˉ(s,a))2]
上式
max
\max
max在当前策略价值估计高于行为策略时,任然保持CQL的估计方法,而对于较低的价值估计,则使用行为策略的估计值,避免保守估计。