AAAI 2023
paper
利用价值函数解决序列模型拼接能力的离线算法
Intro
文章提出了一种新的离线强化学习方法,名为“Critic-Guided Decision Transformer”(CGDT)。该方法基于“Return-Conditioned Supervised Learning”(RCSL)范式,旨在解决现有RCSL方法在处理随机环境和需要“stitching”能力的场景中的局限性。CGDT 结合了基于价值的方法来预测长期回报,并利用决策变换器(Decision Transformer)对轨迹进行建模。通过引入一个学习到的价值函数(即“critic”),CGDT 确保了指定目标回报与动作的预期回报之间的直接对齐。这种方法弥合了RCSL的确定性本质与基于价值的方法的概率特征之间的差距。在随机环境和D4RL基准数据集上的实证评估表明,CGDT 优于传统的RCSL方法。这些结果突出了CGDT 在离线RL领域的潜力,并扩展了RCSL在各种RL任务中的适用性。
Method
Asymmetric Critic Training
采用高斯部分对价值函数Q分布进行建模:
L
Q
(
ϕ
)
=
−
∣
τ
c
−
I
(
u
>
0
)
∣
log
Q
ϕ
(
R
t
∣
τ
0
:
t
−
1
,
s
t
,
a
t
)
,
(
2
)
\mathcal{L}_Q(\phi)=-|\tau_c-\mathbb{I}(u>0)|\log Q_\phi(R_t|\tau_{0:t-1},s_t,a_t),(2)
LQ(ϕ)=−∣τc−I(u>0)∣logQϕ(Rt∣τ0:t−1,st,at),(2)
其中
:
u
=
(
R
t
−
μ
t
)
/
σ
t
,
a
n
d
(
μ
t
,
σ
t
)
∼
Q
ϕ
(
⋅
∣
τ
0
:
t
−
1
,
s
t
,
a
t
)
,
R
t
=
∑
t
T
r
t
:u=(R_t-\mu_t)/\sigma_t,\mathrm{and}(\mu_t,\sigma_t)\sim Q_\phi(\cdot|\tau_{0:t-1},s_t,a_t), R_t=\sum_t^Tr_t
:u=(Rt−μt)/σt,and(μt,σt)∼Qϕ(⋅∣τ0:t−1,st,at),Rt=∑tTrt。需要指出,当
τ
c
>
0.5
\tau_c >0.5
τc>0.5时,批评家偏向于拟合最优轨迹。而
τ
c
<
0.5
\tau_c < 0.5
τc<0.5会使批评家偏向次优轨迹,
Asymmetric Critic Guidance
训练好价值函数后,通过最小化期望回归(IQL)迫使策略的期望回报与目标累计回报匹配:
L
2
τ
p
(
u
)
=
∣
τ
p
−
I
(
u
<
0
)
∣
u
2
,
\mathcal{L}_2^{\tau_p}(u)=|\tau_p-\mathbb{I}(u<0)|u^2,
L2τp(u)=∣τp−I(u<0)∣u2,
其中
u
=
(
R
t
−
μ
t
)
/
σ
t
a
n
d
(
μ
t
,
σ
t
)
∼
Q
ϕ
(
⋅
∣
τ
0
:
t
−
1
,
s
t
,
a
^
t
)
.
u=(R_{t}-\mu_{t})/\sigma_{t}\mathrm{~and~}(\mu_{t},\sigma_{t})\sim Q_{\phi}(\cdot|\tau_{0:t-1},s_{t},\hat{a}_{t}).
u=(Rt−μt)/σt and (μt,σt)∼Qϕ(⋅∣τ0:t−1,st,a^t).。
a
^
\hat{a}
a^是从策略
π
θ
(
⋅
∣
τ
0
:
t
−
1
,
s
t
,
R
t
)
\pi_\theta(\cdot|\tau_{0:t-1},s_t,R_t)
πθ(⋅∣τ0:t−1,st,Rt)中采样。当
τ
p
\tau_p
τp = 0.5 时,它等价于均值回归,它估计随机变量的平均值。通过调整
τ
p
\tau_p
τp,在均值回归中引入了不对称性。它引导策略选择预期回报与目标回报接近的的乐观动作。
为了防止OOD数据价值高估问题,额外引入MSE的损失函数限制策略分布。因此,策略优化的最终损失函数表示为
L
π
(
θ
;
α
)
=
L
2
(
a
t
,
a
^
t
)
+
α
⋅
L
2
τ
p
(
R
t
−
μ
t
σ
t
)
,
\mathcal{L}_\pi(\theta;\alpha)=\mathcal{L}_2(a_t,\hat{a}_t)+\alpha\cdot\mathcal{L}_2^{\tau_p}(\frac{R_t-\mu_t}{\sigma_t}),
Lπ(θ;α)=L2(at,a^t)+α⋅L2τp(σtRt−μt),
伪代码
results