强化学习——价值学习中的DQN

菜到怀疑人生

已于 2022-01-22 09:26:22 修改

阅读量4.2k

点赞数 9

分类专栏：深度学习文章标签：算法机器学习神经网络

于 2022-01-17 10:32:08 首次发布

本文链接：https://blog.csdn.net/dhaiuda/article/details/122424139

版权

深度学习专栏收录该内容

58 篇文章 28 订阅

订阅专栏

文章目录

前言
DQN算法

前言

本文为《深度强化学习》的阅读笔记，如有错误，欢迎指出

DQN算法

DQN算法通过神经网络拟合最优动作价值函数 $Q_*(s_t,a_t)$ ，神经网络结构如下，输入为状态s，输出为每个动作的动作价值函数 $Q_*(s_t,a_t)$ 的值，即Q值， $*$ 表示最优策略，有多少个动作，就有多少个输出，DQN处理离散动作空间。
在这里插入图片描述

损失函数推导

DQN的拟合目标为最优贝尔曼方程，其数学表达式为
$Q_{*}(s_t,a_t)=E_{S_{t+1}}[R_t+\gamma \max_{A}Q_{*}(S_{t+1},A)|S_t=s_t,A_t=a_t]$

其中 $R_t$ 为智能体在状态 $s_t$ 做出动作 $a_t$ 后，环境返回的奖励， $\gamma$ 为回报的折扣率，是一个超参数，其推导如下：
在这里插入图片描述

DQN的拟合目标可看成回归问题，则损失函数为均方误差，数学表达式为
$L=\frac{1}{2}[Q_{*}(s_t,a_t)-(E_{S_{t+1}}[R_t+\gamma \max_{A}Q_{*}(S_{t+1},A)|S_t=s_t,A_t=a_t])]^2$

对于上式可以使用蒙特卡洛近似，假设现有一个四元组( $s_t,a_t,r_t,s_{t+1}$ )，则有

$\begin{aligned} L&=\frac{1}{2}[Q_{*}(s_t,a_t)-(E_{S_{t+1}}[R_t+\gamma \max_{A}Q_{*}(S_{t+1},A)|S_t=s_t,A_t=a_t]])]^2\\ &\approx \frac{1}{2}[Q_{*}(s_t,a_t)-[r_t+\gamma \max_A Q_{*}(s_{t+1},A)]]^2 \end{aligned}$

上式中的 $Q_{*}(s_t,a_t)$ 和 $max_A Q_{*}(s_{t+1},A)$ 均可通过DQN计算

训练DQN

DQN的具体训练流程为

收集训练数据，用任意策略控制智能体与环境进行交互，从而获得一系列四元组( $s_t,a_t,r_t,s_{t+1}$ )，将这些四元组存储起来，构成经验回放数组。经验回放数组的大小为超参数，一般大小为 $10^5~10^6$ ，使用的策略一般为
$\begin{aligned} a_t=\left\{\begin{matrix} & \argmax_a Q(s_t,a)，概率为1-\alpha\\ & 均匀抽取动作，概率为\alpha \end{matrix}\right. \end{aligned}$
$\alpha$ 为超参数，Q(s_t,a)可以是随机初始化的神经网络
从经验回放数组中抽取一个四元组( $s_t,a_t,r_t,s_{t+1}$ )，计算 $Q(s_t,a_t)$ 、 $max_{A}Q(S_{t+1},A)$
计算损失函数，进行反向传播

上述流程也可改成批量梯度的训练方式，此时从经验回放数组中抽取 $N$ 个四元组，进行反向传播计算。

训练DQN的技巧

优先经验回放数组

经验回放数组均匀抽取四元组，优先经验回放数组非均匀抽取四元组，损失函数越大的四元组，被抽取的概率越大，直观理解，对于错误程度较大的样本，应该多训练，以减少错误程度。设四元组( $s_i,a_i,r_i,s_{i+1}$ )的损失函数为 $|\delta_i|$ ，对 $|\delta|$ 进行降序排序，每个四元组被抽取的概率为
$p_i=\frac{1}{rank(i)}$
$r a n k (i)$ 为 $|\delta_i|$ 的序号，更新完DQN后，需要更新经验回放数组中的对应四元组的 $|\delta_i|$ 。对于抽样频率较高的样本，更新次数较多，应该施加较小的学习率，反之，应该施加较大的学习率，优先经验回放数组将四元组( $s_i,a_i,r_i,s_{i+1}$ )的学习率 $a_i$ 设置为
$a_i=\frac{\alpha}{(b*p_j)^\beta}$
$b$ 为经验回放数组的大小， $\alpha$ 为基础学习率， $\beta$ 为(0,1)之间的超参数。

缓解高估问题

自举造成的高估问题

DQN的损失函数为

$\begin{aligned} L\approx \frac{1}{2}[Q_{*}(s_t,a_t)-[r_t+\gamma \max_A Q_{*}(s_{t+1},A)]]^2 \end{aligned}$

$Q_{*}(s_t,a_t)$ 和 $max_A Q_{*}(s_{t+1},A)$ 均由神经网络自己估计，如果神经网络计算的 $max_A Q_{*}(s_{t+1},A)$ 比真实的动作价值函数高，由于 $Q_{*}(s_t,a_t)$ 用于逼近 $r_t+\gamma\max_A Q_{*}(s_{t+1},A)$ ，这种高估现象会导致 $Q_{*}(s_t,a_t)$ 的取值也变高，即高估从 $max_A Q_{*}(s_{t+1},A)$ 传播至 $Q_{*}(s_t,a_t)$ ，从而导致DQN针对某些状态和动作给出过高的估计（高估是不均匀的），可能导致智能体做出一些错误的行为。

最大化造成的高估问题

假设现有一系列随机变量 $X_1、X_2、X_3、... X_n$ ，往随机变量中添加一些均值为0的噪声 $\epsilon$ 得到随机变量 $Z_1、Z_2、Z_3、... Z_n$ ，则有下列不等式
$E_{\epsilon}[\max(Z_1,Z_2,Z_3,...,Z_n)]\geq \max(X_1,X_2,X_3....X_n)$

设DQN的输出 $Q(s_t,a_t)$ 为真实价值函数 $Q_{*}(s_t,a_t)$ 与均值为0的噪声之和，则有

$E_\epsilon[\max_{a_t}(Q(s_t,a_t))]\geq \max_{a_t} Q_{*}(s_t,a_t)$

注意上式是噪声 $\epsilon$ 的期望。DQN的优化目标为：

$Q(s_t,a_t)=r_t+\gamma \max_A Q(s_{t+1},A)$

在有噪声情况下，则有
$E_\epsilon[Q(s_t,a_t)]=r_t+\gamma E_\epsilon[\max_A Q(s_{t+1},A)]\geq r_t+\gamma \max_{a_t} Q_{*}(s_{t+1},a_t)$

即在有噪声的情况下（通常情况下都有噪声），且模型参数变动情况不大情况下，DQN优化的是最优贝尔曼方程的上界，从而使DQN对某些动作和状态做出过高估计，导致智能体做出错误动作。

双DQN

双DQN引入了目标网络，设目标网络与DQN的参数分别为 $w^-_{now}、w_{now}$ ，则双DQN的具体更新步骤为

从经验回放数组中抽取四元组 $s_t,a_t,s_{t+1},r_t)$
对DQN进行前向传播， $\hat q_t=Q(s_t,a_t;w_{now})$
选择动作： $a^*=\argmax_{a} Q(s_{t+1},a;w_{now})$
利用目标网络计算： $\hat q_{t+1}= Q(s_{t+1},a^*;w_{now}^-)$ ，由于动作来自于DQN，则有 $max_{a} Q(s_{t+1},a;w_{now}^-)\geq Q(s_{t+1},a^*;w_{now}^-)$ ，从而避免最大化导致的高估问题，并且使用目标网络计算 $\hat q_{j+1}$ ，切断了自举导致的高估传播，即DQN的高估不会从 $Q(s_{t+1},a_{t+1};w_{now})$ 传递至 $Q(s_{t},a_{t};w_{now})$
计算loss： $\frac{1}{2}[\hat q_t-[r_t+\gamma \hat q_{t+1}]]^2$ ，进行反向传播

菜到怀疑人生

关注

9
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
强化学习——价值学习中的DQN

文章目录前言DQN算法损失函数推导训练DQN前言本文为《深度强化学习》的阅读笔记，如有错误，欢迎指出DQN算法DQN算法通过神经网络拟合最优动作价值函数Q∗(st,at)Q_*(s_t,a_t)Q∗(st,at)，神经网络结构如下，输入为状态s，输出为每个动作的动作价值函数Q∗(st,at)Q_*(s_t,a_t)Q∗(st,at)的值，即Q值，∗*∗表示最优策略，有多少个动作，就有多少个输出，DQN处理离散动作空间。损失函数推导DQN的损失函数为最优贝尔曼方程，其数学表达式为Q
复制链接

扫一扫