强化学习基础知识笔记[6] - DQN

最新推荐文章于 2023-06-20 12:43:56 发布

AaronXueNF

最新推荐文章于 2023-06-20 12:43:56 发布

阅读量864

点赞数

分类专栏：强化学习笔记文章标签：强化学习机器学习

本文链接：https://blog.csdn.net/AaronXueNF/article/details/121231705

版权

强化学习笔记专栏收录该内容

8 篇文章 1 订阅

订阅专栏

本文详细介绍了深度强化学习中的DQN算法，包括其利用卷积神经网络逼近行为值函数、经验回放以及独立的目标网络。接着讨论了DQN的非均匀过估计问题，并提出了DoubleDQN来解决此问题，通过分离动作选择和动作评估的值函数来减少过估计。最后，介绍了优先回放策略，通过采样具有较大TD偏差的数据以提高学习效率，并通过重要性采样系数修正有偏估计。

摘要由CSDN通过智能技术生成

参考资料
[1] 深度强化学习系列第一讲 DQN
本文主要是对该资料学习的笔记，并且加入了一些自己的想法，如有错误欢迎指出。

DQN

算法引入

DQN算法在Q-Learning算法上改进而来，具体改进三点：

利用卷积神经网络逼近行为值函数
该逼近方法属于非线性逼近。此处的值函数对应一组参数，为神经网络中每层网络的权重，用θ表示。此时值函数记为： $Q(s,a;\theta)$ 。DQN所用神经网络为三个卷积层加两个全连接层。
利用经验回放训练强化学习过程
DQN中Agent将数据存储到一个数据库中，再利用均匀随机采样从数据库中抽取数据，然后训练神经网络。这一过程可以打破数据间的相关性，克服神经网络不稳定的问题。
独立设置目标网络处理时间差分法中的TD偏差
对值函数逼近时DQN采用卷积神经网络，用梯度下降法更新。

值函数的更新公式为：
$\theta_{t+1} = \theta{t} + \alpha\lbrace r + \gamma max_{a'}Q(s',a';\theta^-)-Q(s,a;\theta) \rbrace \nabla Q(s,a;\theta) \tag{1}$

其中：

$\theta^-$ 为计算TD目标网络所用的参数，固定步数更新一次
$\theta$ 为计算值函数逼近网络所用参数，每一步都会更新
$\gamma max_{a'}Q(s',a';\theta^-)$ 为TD目标

TD目标网络与值函数逼近网络不同参数的原因：采用相同参数容易导致数据之间存在相关性，从而使训练不稳定。（这里虽然参数不同，但网络模型应该是相同的）

DQN算法描述

疑问：
该算法描述处理的是图像吗？x代表image

其中：

值函数的输入不再是state s，而是s的特征（需要仔细设计特征提取方法）；
[5]该算法中的初始状态包含image x（暂时理解为模型中的某个状态）；
[10]初始状态之后的状态包含下一步的image x，当前步得到的reward和当前的state s，也就是说，state s中包含多个分量；

Double DQN (DDQN)

DQN的固有缺陷：非均匀过估计问题，即估计得到的值函数大于真实的值函数，且值函数每一点的过估计量是非均匀的，因此会影响策略选择。

如上述(1)式所示，DQN的TD目标为： $\gamma max_{a'}Q(s',a';\theta^-)$
其中：

动作选择部分为 $argmax_{a^*} Q(S_{t+1},a^*;\theta^-)$ ，即在 $Q(S_{t+1},a^*;\theta^-)$ 处选择动作a*最大化该处的Q值；
动作评估部分为 $\gamma Q(s',a^*;\theta^-)$ ，即使用上述得到的a*计算值函数以及TD目标；

其中存在的问题：选择a*、计算Q的函数其参数均为 $\theta^-$ ，这也是导致非均匀过估计的来源。

Double DQN的解决方案为：动作选择和动作评估采用不同值函数实现。

Double DQN的TD目标为： $Y^{DoubleQ}_t = R_{t+1} + \gamma Q (S_{t+},argmax_a Q(S_{t+1},a;\theta_t);\theta_t ')$
其中：

动作选择部分为 $argmax_a Q(S_{t+1},a;\theta_t)$ ，采用参数为 $\theta_t$ 的值函数；
动作评估部分为 $R_{t+1} + \gamma Q (S_{t+},a;\theta_t ')$ ，即使用上述得到的a计算参数为 $\theta_t '$ 值函数以及TD目标；

Prioritized Replay（优先回放）

经验回放时采取的均匀抽样并不能高效利用数据，因为不同数据的学习效率不同。一般认为具有较大TD偏差的数据对于参数更新量越大，学习效率越高。

因此，需要定义第i个样本处的采样概率：
$\frac{p^a_i}{\sum_k p_k^a}$

其中：

$p^a_i$ 为第i个样本权重
$\sum_k p_k^a$ 为所有样本权重之和

其权重需要通过特定方式计算得到，参考采用优先回放的DDQN算法。

需要注意的是，采取优先回放概率采样时，动作-值函数为有偏估计，为校正该偏差，定义重要性采样系数：
$\omega_i = (\frac{1}{N} \cdot \frac{1}{P(i)})^{\beta}$

其中：

N为样本总数
β为系数

采用优先回放的DDQN算法

请添加图片描述

其中：

[6]的作用为给新的数据最大的权重，使得每个数据最少利用一次；
[9]的作用为依据每个样本的采样概率p进行采样，这里需要对样本进行排序，计算复杂度高；
[11]中采用Double DQN，计算TD目标的 $Q_{target}$ 采用参数 $\theta_{target}$ ，其余 $Q$ 采用参数 $\theta$ ，动作选择的值函数Q与动作评估的值函数Q参数不同，注意计算TD偏差的Q采用参数 $\theta$ ；
[12]的作用是根据当前数据的TD偏差更新其权重；
[16]一段时间后复制 $\theta$ 到 $\theta_{target}$ 当中，这也解释了DDQN不同参数之间的更新：间隔一段时间将动作选择的参数更新至动作评估的参数中；

AaronXueNF

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习基础知识笔记[6] - DQN

参考资料[1] 深度强化学习系列第一讲 DQN本文主要是对该资料学习的笔记，并且加入了一些自己的想法，如有错误欢迎指出。DQN算法引入DQN算法在Q-Learning算法上改进而来，具体改进三点：利用卷积神经网络逼近行为值函数该逼近方法属于非线性逼近。此处的值函数对应一组参数，为神经网络中每层网络的权重，用θ表示。此时值函数记为：Q(s,a;θ)Q(s,a;\theta)Q(s,a;θ)。DQN所用神经网络为三个卷积层加两个全连接层。利用经验回放训练强化学习过程DQN中Agent
复制链接

扫一扫

专栏目录