[ICML2017] Averaged-DQN: Variance Reduction and Stabilization for Deep Reinforcement Learning 论文笔记

强殖装甲凯普

于 2020-10-29 21:56:15 发布

阅读量469

点赞数

分类专栏：论文笔记

本文链接：https://blog.csdn.net/qq_38163755/article/details/109338068

版权

论文笔记专栏收录该内容

35 篇文章 2 订阅

订阅专栏

文章目录

前言
Averaged DQN
Overestimation and Approximation Errors
- 目标近似误差（TAE）
- 过估计误差
TAE方差降低
实验

前言

DRL train起来是困难的，因为存在instability和variability，这也会影响其表现。寻找合适的方式让训练变得平稳是比较关键的。以往的算法通常是在线性函数逼近的情况下分析的，其在温和的假设下保证收敛。但现实生活的问题通常包含高维输入，使得线性函数逼近方法依赖手工工程特征来表示特定问题的状态，这就降低了agent的灵活性。因此需要有表达力和灵活性的非线性函数估计，除了一小部分成功的尝试，总的来看这种结合被认为不稳定，并且即使在简单场景也显示出了发散（diverge）。DQN是第一个将非线性函数近似——DNN——成功与Q learning结合的方法，其通过将RL问题分解为顺序监督学习任务，提高了训练的稳定性，也就是使用了target network和经验回放（ER）。有人证明从ER中采样可以替换为从并行的环境中异步更新。

函数近似与q learning结合产生了很多问题，其中一个就是overestimation现象。q learning中的max操作在噪声存在时可能会造成对状态动作值的overestimation，double q estimator是一个解决方法。这篇工作通过averaged dqn来解决这个问题。平均降低了目标近似误差方差，使得更稳定，也提高了效果。

贡献为：

一个新奇的DQN扩展，稳定训练，提高表现。
通过方差分析解释了DQN的一些问题，以及提出的扩展怎么解决他们的
实验说明了所提模式的良好效果

DQN的参数设置，两次target network更新之间，1%的ER数据被替换，采样8%。

Averaged DQN

使用之前K个学得的q值估计作为target network。最近的应该更好，作者考虑加权，但实际中没有取得更好的效果。
在这里插入图片描述

Overestimation and Approximation Errors

这里讨论DQN中q learning与函数近似结合后带来的不同类型的误差，和他们在训练稳定性上的影响。学习曲线方差的源头在偶尔的sudden drop。另一个现象是逐渐的退化。

然后是误差与不稳定现象之间的关系猜想。

令 $Q(s,a;\theta_i)$ 为iteration i的DQN的值函数，其与最优值函数的误差为：
在这里插入图片描述
其中 $y_{s,a}^i$ 是DQN target， $\hat{y}_{s,a}^i$ 是 true target。

这里令 $Z_{s,a}^i$ 代表目标近似误差， $R_{s,a}^i$ 代表过估计误差。最优性差异可以看做标准表格式q learning的误差，因此这里不考虑。

目标近似误差（TAE）

TAE是学得的 $Q(s,a;\theta_i)$ 与 $y_{s,a}^i$ 之间的误差，在最小化 DQN loss后确定。TAE是很多因素的结果：

不准确minimization导致 $\theta_i$ 的次优性。
神经网络有限的表征能力（model error）
由于ER的有限大小导致对于未看到的状态动作对的泛化误差。

TAE可能会造成从一个策略到一个次优策略的偏离，比如在 $y_{s,a}^i = \hat{y}_{s,a}^i=Q^*(s,a)$ ，并且
在这里插入图片描述时就会出现。

因此作者猜想，DQN的变化性表现由于TAE产生的从稳态状态策略的偏离。
在这里插入图片描述

过估计误差

之前有文献把TAE $Z_{s,a}^i$ 看做均匀分布在 $[-\epsilon,\epsilon]$ 的随机变量。由于DQN target中的max操作，期望过估计误差的上界为：
在这里插入图片描述
这里n代表状态s可执行的动作数量，最坏的情况是所有的Q值相等。
过估计误差是一个正的偏差，可以渐进地导致次优策略。动作值函数上均衡的偏差不会改变诱导得到的策略。不幸的是，过估计偏差不是均匀的，在不同动作Q值相似的状态和长轨迹的起始状态会更大。

过估计误差偏离上界的量级由TAE的方差控制。实验也说明DQN中过估计的主要原因是TAE方差。

TAE方差降低

首先要建立TAE统计学模型，假设TAE $Z_{s,a}^i$ 是一个随机过程使得期望为0，方差为 $\sigma_s^2$ ，对于 $\neq j:Cov[Z_{s,a}^i, Z_{s',a'}^j]=0$ 。更进一步，为了专注于TAE，作者消除过估计误差通过使用一个固定策略来更新target values，也可以简单的将reward设为0，因为其对方差计算没有影响。
对于Averaged DQN，我们可得：
在这里插入图片描述
P是给定策略的转移概率矩阵。

DQN 方差

采取一个单向MDP过程统计学模型，M个状态，奖赏为0：
在这里插入图片描述
将DQN应用于这样的MDP模型，在 $i > M$ 时，

对于所有j，终结状态的target $y_{M-1,a}^j=0$ 。因此方差为：

TAE是在更新轨迹上过去的DQN迭代中累积的。TAE误差的累加导致更大的方差以及相关的不利影响。

Ensemble DQN 方差

在这里插入图片描述
其可以直接获得K-1的方差减少。

每个都是独立的，TAE之间不相关。

Averaged DQN方差

对于 $i > K M$ ，
在这里插入图片描述
更进一步，对于K>1, m>0， $D_{K,m}<\frac{1}{K}$ ，即Averaged DQN理论上比Ensemble DQN更能降低TAE方差。

实验

实验主要研究K个平均的target network怎么影响值估计的误差，特别是过估计误差；平均是如何影响学得策略的质量的。
在这里插入图片描述

强殖装甲凯普

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[ICML2017] Averaged-DQN: Variance Reduction and Stabilization for Deep Reinforcement Learning 论文笔记

文章目录前言Averaged DQNOverestimation and Approximation Errors前言DRL train起来是困难的，因为存在instability和variability，这也会影响其表现。寻找合适的方式让训练变得平稳是比较关键的。以往的算法通常是在线性函数逼近的情况下分析的，其在温和的假设下保证收敛。但现实生活的问题通常包含高维输入，使得线性函数逼近方法依赖手工工程特征来表示特定问题的状态，这就降低了agent的灵活性。因此需要有表达力和灵活性的非线性函数估计，除了一
复制链接

扫一扫