AAAI 2023
paper
Intro
分布偏移导致离线RL对于OOD数据存在过估计问题。因此一些方法限制策略靠近行为策略。但是着很大程度受限于数据集的质量。若是数据集存在非专家,一个自然的问题是是否有可能构建一个更合理的策略约束方法,该方法通过识别数据集中状态-动作对的优越性,将学习到的策略限制为理想的行为,而不是较差的行为?
为了识别理想的动作,文章考虑加权克隆的离线方法。通过学习优势函数值判断。然而该方法无法超越离线数据集的最优策略。并且对于数据集外的未知状态可能预测错误动作。
本文方法weighted policy constraints (wPC)则是将策略约束方法与加权克隆方法结合。
Method
基于TD3+BC的方法,对BC惩罚项加入动态更新的加权参数项:
π
θ
:
=
arg
max
π
θ
E
s
,
a
∼
B
[
λ
Q
(
s
,
π
θ
(
s
)
)
−
w
(
s
,
a
)
(
π
θ
(
s
)
−
a
)
2
]
,
w
(
s
,
a
)
=
I
[
A
^
(
s
,
a
)
>
0
]
=
I
[
Q
^
ϕ
(
s
,
a
)
−
V
^
ψ
(
s
)
>
0
]
,
\begin{aligned}\pi_\theta:&=\arg\max_{\pi_\theta}\mathbb{E}_{s,a\sim B}[\lambda Q(s,\pi_\theta(s))-w(s,a)(\pi_\theta(s)-a)^2],\\w(s,a)&=\mathbb{I}[\hat{A}(s,a)>0]=\mathbb{I}[\hat{Q}_\phi(s,a)-\hat{V}_\psi(s)>0],\end{aligned}
πθ:w(s,a)=argπθmaxEs,a∼B[λQ(s,πθ(s))−w(s,a)(πθ(s)−a)2],=I[A^(s,a)>0]=I[Q^ϕ(s,a)−V^ψ(s)>0],
算法伪代码: