[ICML2017] Averaged-DQN: Variance Reduction and Stabilization for Deep Reinforcement Learning 论文笔记

前言

DRL train起来是困难的,因为存在instability和variability,这也会影响其表现。寻找合适的方式让训练变得平稳是比较关键的。以往的算法通常是在线性函数逼近的情况下分析的,其在温和的假设下保证收敛。但现实生活的问题通常包含高维输入,使得线性函数逼近方法依赖手工工程特征来表示特定问题的状态,这就降低了agent的灵活性。因此需要有表达力和灵活性的非线性函数估计,除了一小部分成功的尝试,总的来看这种结合被认为不稳定,并且即使在简单场景也显示出了发散(diverge)。DQN是第一个将非线性函数近似——DNN——成功与Q learning结合的方法,其通过将RL问题分解为顺序监督学习任务,提高了训练的稳定性,也就是使用了target network和经验回放(ER)。有人证明从ER中采样可以替换为从并行的环境中异步更新。

函数近似与q learning结合产生了很多问题,其中一个就是overestimation现象。q learning中的max操作在噪声存在时可能会造成对状态动作值的overestimation,double q estimator是一个解决方法。这篇工作通过averaged dqn来解决这个问题。平均降低了目标近似误差方差,使得更稳定,也提高了效果。

贡献为:

  1. 一个新奇的DQN扩展,稳定训练,提高表现。
  2. 通过方差分析解释了DQN的一些问题,以及提出的扩展怎么解决他们的
  3. 实验说明了所提模式的良好效果

DQN的参数设置,两次target network更新之间,1%的ER数据被替换,采样8%。

Averaged DQN

使用之前K个学得的q值估计作为target network。最近的应该更好,作者考虑加权,但实际中没有取得更好的效果。
在这里插入图片描述

Overestimation and Approximation Errors

这里讨论DQN中q learning与函数近似结合后带来的不同类型的误差,和他们在训练稳定性上的影响。学习曲线方差的源头在偶尔的sudden drop。另一个现象是逐渐的退化。

然后是误差与不稳定现象之间的关系猜想。

Q ( s , a ; θ i ) Q(s,a;\theta_i) Q(s,a;θi) 为iteration i的DQN的值函数,其与最优值函数的误差为:
在这里插入图片描述
其中 y s , a i y_{s,a}^i ys,ai 是DQN target, y ^ s , a i \hat{y}_{s,a}^i y^s,ai 是 true target。
在这里插入图片描述
这里令 Z s , a i Z_{s,a}^i Zs,ai 代表目标近似误差, R s , a i R_{s,a}^i Rs,ai 代表过估计误差。最优性差异可以看做标准表格式q learning的误差,因此这里不考虑。

目标近似误差(TAE)

TAE是学得的 Q ( s , a ; θ i ) Q(s,a;\theta_i) Q(s,a;θi) y s , a i y_{s,a}^i ys,ai 之间的误差,在最小化 DQN loss后确定。TAE是很多因素的结果:

  1. 不准确minimization导致 θ i \theta_i θi 的次优性。
  2. 神经网络有限的表征能力(model error)
  3. 由于ER的有限大小导致对于未看到的状态动作对的泛化误差。

TAE可能会造成从一个策略到一个次优策略的偏离,比如在 y s , a i = y ^ s , a i = Q ∗ ( s , a ) y_{s,a}^i = \hat{y}_{s,a}^i=Q^*(s,a) ys,ai=y^s,ai=Q(s,a),并且
在这里插入图片描述时就会出现。

因此作者猜想,DQN的变化性表现由于TAE产生的从稳态状态策略的偏离。
在这里插入图片描述

过估计误差

之前有文献把TAE Z s , a i Z_{s,a}^i Zs,ai看做均匀分布在 [ − ϵ , ϵ ] [-\epsilon,\epsilon] [ϵ,ϵ] 的随机变量。由于DQN target中的max操作,期望过估计误差的上界为:
在这里插入图片描述
这里n代表状态s可执行的动作数量,最坏的情况是所有的Q值相等。
过估计误差是一个正的偏差,可以渐进地导致次优策略。动作值函数上均衡的偏差不会改变诱导得到的策略。不幸的是,过估计偏差不是均匀的,在不同动作Q值相似的状态和长轨迹的起始状态会更大。

过估计误差偏离上界的量级由TAE的方差控制。实验也说明DQN中过估计的主要原因是TAE方差。

TAE方差降低

首先要建立TAE统计学模型,假设TAE Z s , a i Z_{s,a}^i Zs,ai 是一个随机过程使得期望为0,方差为 σ s 2 \sigma_s^2 σs2,对于 i ≠ j : C o v [ Z s , a i , Z s ′ , a ′ j ] = 0 i \neq j:Cov[Z_{s,a}^i, Z_{s',a'}^j]=0 i=j:Cov[Zs,ai,Zs,aj]=0。更进一步,为了专注于TAE,作者消除过估计误差通过使用一个固定策略来更新target values,也可以简单的将reward设为0,因为其对方差计算没有影响。
对于Averaged DQN,我们可得:
在这里插入图片描述
P是给定策略的转移概率矩阵。

DQN 方差

采取一个单向MDP过程统计学模型,M个状态,奖赏为0:
在这里插入图片描述
将DQN应用于这样的MDP模型,在 i > M i>M i>M时,
在这里插入图片描述
对于所有j,终结状态的target y M − 1 , a j = 0 y_{M-1,a}^j=0 yM1,aj=0。因此方差为:
在这里插入图片描述
TAE是在更新轨迹上过去的DQN迭代中累积的。TAE误差的累加导致更大的方差以及相关的不利影响。

Ensemble DQN 方差

在这里插入图片描述
其可以直接获得K-1的方差减少。
在这里插入图片描述
每个都是独立的,TAE之间不相关。

Averaged DQN方差

对于 i > K M i>KM i>KM
在这里插入图片描述
更进一步,对于K>1, m>0, D K , m < 1 K D_{K,m}<\frac{1}{K} DK,m<K1,即Averaged DQN理论上比Ensemble DQN更能降低TAE方差。

实验

实验主要研究K个平均的target network怎么影响值估计的误差,特别是过估计误差;平均是如何影响学得策略的质量的。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值