DQN(最朴素的)

最新推荐文章于 2024-09-26 17:23:00 发布

焦糖不叮

最新推荐文章于 2024-09-26 17:23:00 发布

阅读量106

点赞数

分类专栏：强化学习文章标签：人工智能

本文链接：https://blog.csdn.net/qq_55223275/article/details/132654041

版权

强化学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

DQN简单推导

$U_t = R_t + \gamma R_{t+1} + \gamma ^2 R_{t+2} + \gamma ^3 R_{t+3} + ...$
$Q_\pi (s_t, a_t) = E_{S_{t+1}, A_{t+1}, ..., S_n, A_n}[U_t|S_t = s_t, A_t = a_t]$
$Q_*(s_t, a_t) = \max_πQ_π(s_t, a_t)$
我们可以这样理解 $Q_*$ ：已知 $s_t$ 和 $a_t$ ，不论未来采取什么样的策略 π，回报 $U_t$ 的期望不可能超过 $Q_*$ 。我们希望知道 $Q_*$ ，因为它就像是先知一般，可以预见未来，在 t 时刻就预见 t 到 n时刻的累计奖励的期望。假如我们有 $Q_*$ 这位先知，我们就遵照先知的指导，最大化未来的累计奖励。然而在实践中我们不知道 $Q_*$ 的函数表达式。
在这里插入图片描述

为了近似出 $Q_*$ ，我们使用深度Q网络（deep Q network，缩写DQN），记作 Q(s, a; w)。其中的 w 表示神经网络中的参数。首先随机初始化 w，随后用“经验”去学习 w。学习的目标是：对于所有的 s 和 a，DQN 的预测 Q(s, a; w) 尽量接近 $Q_*$ (s, a)。

训练 DQN 最常用的算法是时间差分（temporal difference，缩写 TD）。
$U_t = R_t + \gamma R_{t+1} + \gamma ^2 R_{t+2} + \gamma ^3 R_{t+3} + ... = R_t + \gamma U_{t+1}$
经过一系列数学推导，可以得到下面的定理。
在这里插入图片描述
贝尔曼方程的右边是个期望，我们可以对期望做蒙特卡洛近似。当智能体执行动作 $a_t$ 之后，环境通过状态转移函数 $p(s_{t+1}|s_t, a_t)$ 计算出新状态 $s_{t+1}$ 。奖励 $R_t$ 最多只依赖于 $S_t、A_t、S_{t+1}$ 。那么当我们观测到 $s_t、a_t、s_{t+1}$ 时，则奖励 $R_t$ 也被观测到，记作 $r_t$ 。有了四元组
$s_t, a_t, r_t, s_{t+1})，$
我们可以计算出贝尔曼方程右边期望的蒙特卡洛近似：
$r_t + \gamma \cdot \max_{a \in \Alpha} Q_*({s_{t+1}, a})$
把 $Q_*(s, a) 替换成神经网络 Q(s, a; w)$ ,得到：
$\underbrace {Q(s_t, a_t; w)}_{预测\hat {q_t}} \approx \underbrace{r_t + \gamma \cdot \max_{a \in \Alpha} Q(s_{t+1}, a; w)}_{TD目标\hat {y_t}}$
左边的 $\hat{q_t} ≜ Q(s_t, a_t; w)$ 是神经网络在 t 时刻做出的预测，其中没有任何事实成分。右边的 TD 目标 $\hat{y_t}$ 是神经网络在 t + 1 时刻做出的预测，它部分基于真实观测到的奖励 $r_t$ 。 $\hat{q_t}$ 和 $\hat{y_t}$ 两者都是对最优动作价值 $Q_*(s_t, a_t)$ 的估计，但是 $\hat{y_t}$ 部分基于事实，因此比 $\hat{q_t}$ 更可信。应当鼓励 $\hat{q_t} ≜ Q(s_t, a_t; w)$ 接近 $\hat{y_t}$ 。定义损失函数：
$\frac{1}{2}[Q(s_t, a_t,;w) - \hat{y_t}]^2$
假装 $\hat{y_t}$ 是常数（~~材料上这么写的，可以理解为是一个观测值~~），计算 L 关于 w 的梯度：
$\nabla_{w} L(w) = \underbrace{(\hat{q_t} - \hat{y_t})}_{TD误差\delta_t} \cdot \nabla_{w}Q(s_t, a_t; w)$
做一步梯度下降，可以让 $\hat{q_t}$ 更接近 $\hat{y_t}$ ：
$\leftarrow w - \alpha \cdot \delta_t \cdot \nabla_wQ(s_t, a_t; w)$
这个公式就是训练 DQN 的 TD 算法。

训练流程

收集训练数据

算法所需数据为四元组 $s_t, a_t, r_t, s_{t+1})$ ，与控制智能体运动的策略 π 无关。这就意味着可以用任何策略控制智能体与环境交互,比较常用的是 ϵ-greedy 策略:
$a_t = \left \{ \begin{aligned} argmax_a Q(s_t, a; w), 以概率(1-\epsilon) \\ 均匀抽取 A 中的一个动作,以概率\epsilon \end{aligned} \right.$
把智能体在一局游戏中的轨迹记作：
$s_1, a_1, r_1, s_2, a_2, r_2, ..., s_n, a_n, r_n$
把一条轨迹划分成 n 个 $s_t, a_t, r_t, s_{t+1})$ 这种四元组，存入数组，这个数组叫做经验回放数组（replay buffer）。

更新 DQN 参数 w

随机从经验回放数组中取出一个四元组，记作 $s_j, a_j, r_j, s_{j+1})$ 。
设 DQN 当前的参数为 $w_{now}$ ，执行下面的步骤对参数做一次更新，得到新的参数 $w_{new}$ 。

对 DQN 做正向传播，得到 Q 值：
$\hat{q_j} = Q(s_j, a_j; w_{now}) 和\hat{q_{j+1}} = \max_{a \in \Alpha}Q(s_{j+1}, a; w_{now})$
计算 TD 目标和 TD 误差：
$\hat{y_j} = r_j + \gamma \cdot \hat {q_{j+1}} 和 \delta _j = \hat{q_j} - \hat{y_j}$
对 DQN 做反向传播，得到梯度：
$g_j = \nabla_wQ(s_j,a_j; w_{now})$
做梯度下降更新 DQN 的参数：
$w_{new} \leftarrow w_{now} - \alpha \cdot \delta_j \cdot g_j$