文章目录
前言
DRL train起来是困难的,因为存在instability和variability,这也会影响其表现。寻找合适的方式让训练变得平稳是比较关键的。以往的算法通常是在线性函数逼近的情况下分析的,其在温和的假设下保证收敛。但现实生活的问题通常包含高维输入,使得线性函数逼近方法依赖手工工程特征来表示特定问题的状态,这就降低了agent的灵活性。因此需要有表达力和灵活性的非线性函数估计,除了一小部分成功的尝试,总的来看这种结合被认为不稳定,并且即使在简单场景也显示出了发散(diverge)。DQN是第一个将非线性函数近似——DNN——成功与Q learning结合的方法,其通过将RL问题分解为顺序监督学习任务,提高了训练的稳定性,也就是使用了target network和经验回放(ER)。有人证明从ER中采样可以替换为从并行的环境中异步更新。
函数近似与q learning结合产生了很多问题,其中一个就是overestimation现象。q learning中的max操作在噪声存在时可能会造成对状态动作值的overestimation,double q estimator是一个解决方法。这篇工作通过averaged dqn来解决这个问题。平均降低了目标近似误差方差,使得更稳定,也提高了效果。
贡献为:
- 一个新奇的DQN扩展,稳定训练,提高表现。
- 通过方差分析解释了DQN的一些问题,以及提出的扩展怎么解决他们的
- 实验说明了所提模式的良好效果
DQN的参数设置,两次target network更新之间,1%的ER数据被替换,采样8%。
Averaged DQN
使用之前K个学得的q值估计作为target network。最近的应该更好,作者考虑加权,但实际中没有取得更好的效果。
Overestimation and Approximation Errors
这里讨论DQN中q learning与函数近似结合后带来的不同类型的误差,和他们在训练稳定性上的影响。学习曲线方差的源头在偶尔的sudden drop。另一个现象是逐渐的退化。
然后是误差与不稳定现象之间的关系猜想。
令
Q
(
s
,
a
;
θ
i
)
Q(s,a;\theta_i)
Q(s,a;θi) 为iteration i的DQN的值函数,其与最优值函数的误差为:
其中
y
s
,
a
i
y_{s,a}^i
ys,ai 是DQN target,
y
^
s
,
a
i
\hat{y}_{s,a}^i
y^s,ai 是 true target。
这里令
Z
s
,
a
i
Z_{s,a}^i
Zs,ai 代表目标近似误差,
R
s
,
a
i
R_{s,a}^i
Rs,ai 代表过估计误差。最优性差异可以看做标准表格式q learning的误差,因此这里不考虑。
目标近似误差(TAE)
TAE是学得的 Q ( s , a ; θ i ) Q(s,a;\theta_i) Q(s,a;θi) 与 y s , a i y_{s,a}^i ys,ai 之间的误差,在最小化 DQN loss后确定。TAE是很多因素的结果:
- 不准确minimization导致 θ i \theta_i θi 的次优性。
- 神经网络有限的表征能力(model error)
- 由于ER的有限大小导致对于未看到的状态动作对的泛化误差。
TAE可能会造成从一个策略到一个次优策略的偏离,比如在
y
s
,
a
i
=
y
^
s
,
a
i
=
Q
∗
(
s
,
a
)
y_{s,a}^i = \hat{y}_{s,a}^i=Q^*(s,a)
ys,ai=y^s,ai=Q∗(s,a),并且
时就会出现。
因此作者猜想,DQN的变化性表现由于TAE产生的从稳态状态策略的偏离。
过估计误差
之前有文献把TAE
Z
s
,
a
i
Z_{s,a}^i
Zs,ai看做均匀分布在
[
−
ϵ
,
ϵ
]
[-\epsilon,\epsilon]
[−ϵ,ϵ] 的随机变量。由于DQN target中的max操作,期望过估计误差的上界为:
这里n代表状态s可执行的动作数量,最坏的情况是所有的Q值相等。
过估计误差是一个正的偏差,可以渐进地导致次优策略。动作值函数上均衡的偏差不会改变诱导得到的策略。不幸的是,过估计偏差不是均匀的,在不同动作Q值相似的状态和长轨迹的起始状态会更大。
过估计误差偏离上界的量级由TAE的方差控制。实验也说明DQN中过估计的主要原因是TAE方差。
TAE方差降低
首先要建立TAE统计学模型,假设TAE
Z
s
,
a
i
Z_{s,a}^i
Zs,ai 是一个随机过程使得期望为0,方差为
σ
s
2
\sigma_s^2
σs2,对于
i
≠
j
:
C
o
v
[
Z
s
,
a
i
,
Z
s
′
,
a
′
j
]
=
0
i \neq j:Cov[Z_{s,a}^i, Z_{s',a'}^j]=0
i=j:Cov[Zs,ai,Zs′,a′j]=0。更进一步,为了专注于TAE,作者消除过估计误差通过使用一个固定策略来更新target values,也可以简单的将reward设为0,因为其对方差计算没有影响。
对于Averaged DQN,我们可得:
P是给定策略的转移概率矩阵。
DQN 方差
采取一个单向MDP过程统计学模型,M个状态,奖赏为0:
将DQN应用于这样的MDP模型,在
i
>
M
i>M
i>M时,
对于所有j,终结状态的target
y
M
−
1
,
a
j
=
0
y_{M-1,a}^j=0
yM−1,aj=0。因此方差为:
TAE是在更新轨迹上过去的DQN迭代中累积的。TAE误差的累加导致更大的方差以及相关的不利影响。
Ensemble DQN 方差
其可以直接获得K-1的方差减少。
每个都是独立的,TAE之间不相关。
Averaged DQN方差
对于
i
>
K
M
i>KM
i>KM,
更进一步,对于K>1, m>0,
D
K
,
m
<
1
K
D_{K,m}<\frac{1}{K}
DK,m<K1,即Averaged DQN理论上比Ensemble DQN更能降低TAE方差。
实验
实验主要研究K个平均的target network怎么影响值估计的误差,特别是过估计误差;平均是如何影响学得策略的质量的。