Introduction
文章提出两个量化:标准化Q差异与肯达尔系数
τ
\tau
τ指标,从而分析出O2O(offline to Online) RL存在的问题是offline时期预训练的Q价值函数往往是不准确的,容易导致迁移到online后,在线微调过程中性能不稳定和缓慢提高(高方差缓慢改进),,如下图Figure 2所示。文章提出方法包括:1)价值函数更新过程中对动作添加扰动 2)增加Q函数更新频率。
Method
为了缓解Q值过估计问题,首先在针对Q函数的迭代过程中,对N个集成Q中的第i个价值网络,下一状态所采取的动作
a
′
∼
π
(
⋅
∣
s
′
)
a' \sim \pi(\cdot | s')
a′∼π(⋅∣s′)加入一个clipped的噪声
ϵ
∼
C
l
i
p
(
N
(
0
,
σ
)
,
−
c
,
c
)
\epsilon \sim Clip(\mathcal{N}(0, \sigma), -c, c)
ϵ∼Clip(N(0,σ),−c,c)
T
Q
ϕ
i
(
s
,
a
)
←
r
+
γ
(
Q
^
ϕ
i
(
s
′
,
a
′
+
ϵ
)
−
β
log
π
(
a
′
∣
s
′
)
)
,
。
\mathcal{T}Q_{\phi_{i}}(\mathrm{s},\mathrm{a})\leftarrow r+\gamma\left(\hat{Q}_{\phi_{i}}(\mathrm{s}^{\prime},\mathrm{a}^{\prime}+\epsilon)-\beta\log\pi\left(\mathrm{a}^{\prime}\mid\mathrm{s}^{\prime}\right)\right),。
TQϕi(s,a)←r+γ(Q^ϕi(s′,a′+ϵ)−βlogπ(a′∣s′)),。
上式为伪代码第7行所提到的Equation3, 实现鼓励智能体探索不同的动作,缓解Q过估计问题,如上图Figure 1中最右侧图所示。方法第二改进便是增加Q的更新频率,保证Q值估计的准确性。具体便是为代码中第5行的
N
u
p
c
N_{upc}
Nupc