NIPS 2022
paper
Intro
针对离线 RL 问题,提出将代理分解为一个向导策略(guide-policy): g ( s ′ ∣ s ) g(s'|s) g(s′∣s)和一个执行策略(execute-policy) : π ( a ∣ s , g ( s ) ) \pi(a| s, g(s)) π(a∣s,g(s)),前者建议向给定的当前状态转换的下一个状态的最高值,后者产生可能一步就将代理转换到给定状态的操作。通过这种分解,避免了使用动作值函数的方法的缺陷,同时保持了模拟学习方法的稳定性。
Method
Learning the Guide-Policy
为了让向导策略能够正确引导,首先需要利用离线数据中的(s,s’,r)学习一个价值函数。由于缺乏动作,自然有利于规避ODD导致的过估计。
min
ϕ
E
(
s
,
r
,
s
′
)
∼
D
[
1
(
1
+
r
+
γ
V
ϕ
′
(
s
′
)
−
V
ϕ
(
s
)
2
τ
>
0
)
(
1
+
r
+
γ
V
ϕ
′
(
s
′
)
−
V
ϕ
(
s
)
2
τ
)
2
+
V
ϕ
(
s
)
τ
]
\min_{\phi}\mathbb{E}_{(s,r,s^{\prime})\sim\mathcal{D}}\left[1\Big(1+\frac{r+\gamma V_{\phi^{\prime}}(s^{\prime})-V_{\phi}(s)}{2\tau}>0\Big)\Big(1+\frac{r+\gamma V_{\phi^{\prime}}(s^{\prime})-V_{\phi}(s)}{2\tau}\Big)^{2}+\frac{V_{\phi}(s)}{\tau}\right]
ϕminE(s,r,s′)∼D[1(1+2τr+γVϕ′(s′)−Vϕ(s)>0)(1+2τr+γVϕ′(s′)−Vϕ(s))2+τVϕ(s)]
上述公式的
τ
\tau
τ实现最优化V以及减少逼近误差的trade-off。较小的
τ
\tau
τ向更高V 驱动,同时引入更大的近似误差,反之亦然。
得到价值函数,简单最大化从而得到指导策略容易出现错误状态泛化。因此本文添加一项基于BC的正则化项: max ω E s ∼ D , s ′ ∼ g ω ( s ) [ V ϕ ( s ′ ) + α log g μ ( s ′ ∣ s ) ] \max_{\omega}\mathbb{E}_{s\sim\mathcal{D},s^{\prime}\sim g_{\omega}(s)}\Big[V_{\phi}(s^{\prime})+\alpha\log g_{\mu}(s^{\prime}|s)\Big] ωmaxEs∼D,s′∼gω(s)[Vϕ(s′)+αloggμ(s′∣s)]
其中
g
μ
g_\mu
gμ是利用离线数据得到的。除此外,还提供另一种行为隐式正则(AWR算法)的策略优化方法:
max
ω
E
(
s
,
s
′
)
∼
D
[
exp
(
r
+
γ
V
ϕ
′
(
s
′
)
−
V
ϕ
(
s
)
α
)
log
g
ω
(
s
′
∣
s
)
]
\max_{\omega}\mathbb{E}_{(s,s')\sim\mathcal{D}}\Bigg[\exp\Big(\frac{r+\gamma V_{\phi'}(s')-V_{\phi}(s)}{\alpha}\Big)\log g_{\omega}(s'|s)\Bigg]
ωmaxE(s,s′)∼D[exp(αr+γVϕ′(s′)−Vϕ(s))loggω(s′∣s)]
Learning the Execute-Policy: Training and Evaluation
得到向导策略后,利用监督学习的方法学习执行策略:
max
θ
E
(
s
,
a
,
s
′
)
∈
D
[
log
π
θ
(
a
∣
s
,
s
′
)
]
\max_\theta\mathbb{E}_{(s,a,s')\in\mathcal{D}}\Big[\log\pi_\theta(a|s,s')\Big]
θmaxE(s,a,s′)∈D[logπθ(a∣s,s′)]
而在以后的evaluation过程中策略表示如下:
a
=
arg
max
a
π
θ
(
a
∣
s
,
g
ω
(
s
)
)
a=\arg\max_a\pi_\theta(a|s,g_\omega(s))
a=argmaxaπθ(a∣s,gω(s))