ICML 2021
paper
Introduction
off-policy 的在线RL算法存在训练不稳定以及探索利用之间平衡问题。为解决上述问题突出算法,包含两个关键点:(1)基于集成的weighted bellman backup (2)基于UCB的探索方式。结合SAC以及RainBow DQN均取得了不错的效果。
Method
Weighted Bellman backups
考虑集成SAC,即使用N个Q值函数以及策略去估计
{
Q
θ
i
,
π
ϕ
i
}
i
=
1
N
\{Q_{\theta_i}, \pi_{\phi_i}\}_{i=1}^N
{Qθi,πϕi}i=1N。由于target Q值估计的不准确容易由bellman backup错误传播到Q,造成训练的不稳定。因此提出一种加权的均方bellman:
L
W
Q
(
τ
t
,
θ
i
)
=
w
(
s
t
+
1
,
a
t
+
1
)
(
Q
θ
i
(
s
t
,
a
t
)
−
r
t
−
γ
V
ˉ
(
s
t
+
1
)
)
2
\mathcal{L}_{WQ}\left(\tau_t,\theta_i\right)=w\left(s_{t+1},a_{t+1}\right)\left(Q_{\theta_i}(s_t,a_t)-r_t-\gamma\bar{V}(s_{t+1})\right)^2
LWQ(τt,θi)=w(st+1,at+1)(Qθi(st,at)−rt−γVˉ(st+1))2
其中权重
w
(
s
,
a
)
=
σ
(
−
Q
ˉ
s
t
d
(
s
,
a
)
∗
T
)
+
0.5
w(s,a)=\sigma\left(-\bar{Q}_{\mathtt{std}}(s,a)*T\right)+0.5
w(s,a)=σ(−Qˉstd(s,a)∗T)+0.5。
σ
\sigma
σ表示Sigmoid函数,
Q
ˉ
s
t
d
\bar{Q}_{std}
Qˉstd表示所有Q预测值的标准差。上式说明标准差大的(s,a)越不被更新。
Bootstrap with random initialization
使用集成的形式,对每个agent首先采用随机初始化。然后采集不同数据进行参数更新。具体的,算法算法维护一个伯努利分布的binary mask m t , i m_{t,i} mt,i, 该值将加入到buffer中。当采集数据训练策略以及价值函数时,对应损失函数变为 m t , i L π ( s t , ϕ i ) a n d m t , i L W Q ( τ t , θ i ) m_{t,i}\mathcal{L}_{\pi}\left(s_{t},\phi_{i}\right)\mathrm{and}m_{t,i}\mathcal{L}_{WQ}(\tau_{t},\theta_{i}) mt,iLπ(st,ϕi)andmt,iLWQ(τt,θi)
UCB exploration
利用ensemble的Q值估计实现乐观探索,具体动作选择:
a
t
=
max
a
{
Q
nean
(
s
t
,
a
)
+
λ
Q
std
(
s
t
,
a
)
}
a_t=\max_a\{Q_\text{nean}(s_t,a)+\lambda Q_\text{std}(s_t,a)\}
at=amax{Qnean(st,a)+λQstd(st,a)}
在连续动作空间,从N个策略集生成N个动作,选取最大化上式的动作作为输出。