Value-based learning（价值学习）入门（使用DQN）

最新推荐文章于 2024-06-11 10:03:05 发布

m0_59838738

最新推荐文章于 2024-06-11 10:03:05 发布

阅读量808

点赞数

分类专栏：深度学习之路文章标签：深度学习神经网络机器学习强化学习

本文链接：https://blog.csdn.net/m0_59838738/article/details/120840781

版权

深度学习之路专栏收录该内容

6 篇文章 0 订阅

订阅专栏

以下内容总结自B站：深度强化学习(Deep Reinforcement Learning)_哔哩哔哩_bilibili

一、概述：

Value-based learning（价值学习）：使用神经网络Deep Q network（DQN）来近似学习 $Q^*(s,a)$ ；使用时间差分（TD：temporal different）算法来训练DQN，即学习神经网络的参数。

二、概念回顾：

1、基于策略 $\pi$ 的动作价值函数（Action-value function）：

$Q_{\pi}(s_t,a_t) = \mathbb{E}[U_t|S_t = s_t, A_t = a_t]$ ，表示 $t$ 时刻状态 $s_t$ 下做动作之后能获得的回报的期望。

$U_t = R_t + \gamma \cdot R_{t+1} + \gamma ^2 \cdot R_{t+2} + \gamma ^3 \cdot R_{t+3} + \gamma ^4 \cdot R_{t+4} + \cdots$

$U_t$ 是回报（Return）：表示t时刻开始未来执行一组动作后能够获得的奖励之和。 $U_t = R_t + \gamma R_{t+1} + \gamma ^2R_{t+2} + \gamma ^3R_{t+3} + \cdots$
$R_i$ 是即时奖励，与状态 $S_i$ 和动作 $A_i$ 相关； $\gamma$ 是折扣因子，取[0,1]之间。未来的奖励不确定，所以需要在未来奖励上打个折扣。
动作价值函数 $Q_\pi(s_t, a_t)$ 的现实意义：如果用策略 $\pi$ ，我们能知道在状态 $s_t$ 下做动作 $a_t$ 是否明智，即 $Q_\pi(s_t, a_t)$ 会对动作空间中的每一个动作 $a_t$ 打分。如果有了 $Q_\pi(s_t, a_t)$ ，Agent就能根据 $Q_\pi(s_t, a_t)$ 对动作的评价做决策，选择得分最高的动作。
用不同的策略 $\pi$ 函数，会得到不同的 $Q_\pi(s_t, a_t)$ 。
下面尝试把 $Q_\pi(s_t, a_t)$ 中的 $\pi$ 去掉：对 $Q_\pi(s_t, a_t)$ 求关于 $\pi$ 的最大值： $Q^*(s_t,a_t) = max_\pi Q_\pi(s_t, a_t)$

2、Optimal action-value function（最优动作价值函数 $Q^* (s, a)$ $Q^*(s_t,a_t)$ ）：

$Q^*(s_t,a_t) = max_\pi Q_\pi(s_t, a_t)$ ，表示在状态 $s_t$ 下，做 $a_t$ 能得到最好的回报的期望。

最优动作价值函数的现实意义：在状态 $s_t$ 下，会对动作空间中的每一个动作 $a_t$ 打分，Agent每次选取最高分对应的动作 $a_t$ 。最优动作价值函数与策略 $\pi$ 无关。
$Q^*(s,a)$ 能指导Agent做决策。有了 $Q^*(s,a)$ ，那么每观测到一个状态 $s_t$ ，都能选择使状态价值函数值最大的动作 $a_t$ ： $a_t = argmax_a Q^*(s_t, a)$ .
Value-based learning（价值学习）就是使用神经网络Deep Q network（DQN）来学习一个函数 $Q(s,a;w)$ ，该函数能够近似 $Q^*(s,a)$ 。其中，w是DQN的参数，s是输入，a是输出。

三、Deep Q network（DQN）

（一）全貌概览：

假设我们已经训练好了一个DQN，即DQN的参数w已经有了，那么：

将屏幕的一帧作为输入，通过卷积层（Conv）进行特征提取，得到特征向量（feature），然后通过全连接层（Dense）将特征映射到输出向量（图中紫色方块）。
输出向量就是对动作的打分，向量的每一个元素对应一个动作的得分。例如，超级玛丽游戏中动作有left，right，up三个动作，因此输出向量是三维的：[2000,1000, 3000]。通过这个向量，就能指导Agent应该做的动作。Agent此时应该做up动作，因为该动作分数最高，代表做该动作能获得的回报的期望最大。

（二）如何使用DQN指导Agent打游戏：

以 $s_t$ 为输入，给所有动作打分，选择得分最高的动作作为 $a_t$ ；
Agent执行 $a_t$ 动作后，环境会对状态进行改变，下一个状态是根据状态转移函数p随机抽样得来，得到 $s_{t+1}$ ；
同时环境还会告诉Agent得到的即时奖励 $r_t$ ， $r_t$ 是强化学习中的监督信号，DQN需要参考奖励值来进行训练。
重复此过程，直至游戏结束。

如何训练DQN？最常用的是TD算法。

四、时序差分：Temporal Difference（TD） Learning

先看一个例子：开车从纽约（NYC）到亚特兰大（Atlanta）需要多长时间？用模型 $Q(w)$ 进行预测，例如 $Q(w)=1000$ ，分钟。如何更新这个模型？

方法一：

模型做一个预测，这个预测一开始可以是随机的： $q=Q(w)$ ，即 $q=1000.$
从NYC开车到Atlanta，结束一次完整行程后得到真实时间 $y$ ，如， $y=860.$
计算预测值和真实值的损失函数Loss： $L=\frac{1}{2}(q-y)^2.$ （类似均方损失函数），训练模型的目的就是使估计值逐渐逼近真实值，即误差尽可能小。
计算梯度： $\frac{\partial L}{\partial w} = \frac{\partial q}{\partial w}\cdot \frac{\partial L}{\partial q}=(q-y)\cdot \frac{\partial Q(w)}{\partial w}=140\cdot \frac{\partial Q(w)}{\partial w}.$ （链式法则，L是q的函数，q是w的函数）
梯度下降法更新参数w： $w_{t+1}=w_t-\alpha \cdot \frac{\partial L}{\partial w}|_{w=w_t}$ （ $\alpha$ 为学习率，值在(0,1)之间）

方法一特点：通过梯度下降更新参数w，使模型估计值越来越逼近真实值。但该方法必须等一整次旅途结束后，才能对模型进行一次更新（这是蒙特卡洛方法的典型特征）。能否在完成一整次旅途之前就对模型更新，即走一步更新一次？

方法二（TD算法）：

模型做一个预测，这个预测一开始可以是随机的： $q=Q(w)$ ，即 $q=1000.$ （同方法一）
从NYC开车到途中某处（华盛顿：DC），观测到实际使用了300分钟；此时模型又做一个预测：预测从DC到Atlanta需要600分钟。
更新预测值：300 + 600 = 900 分钟，这个新的估计成为TD target，记为 $y=900.$ 这个值比一开始的纯估计 $q=1000$ 要更可靠，因为里面包含了300的真实值。越接近Atlanta，TD target就越准确。
计算最初预测值和TD target的损失函数Loss： $L=\frac{1}{2}(q-y)^2.$ 其中最初预测值和TD target之差 $q-y=1000-900=100$ 称为TD error。模型训练的目的就是使TD error接近0.
计算梯度： $\frac{\partial L}{\partial w} = \frac{\partial q}{\partial w}\cdot \frac{\partial L}{\partial q}=(q-y)\cdot \frac{\partial Q(w)}{\partial w}=100\cdot \frac{\partial Q(w)}{\partial w}.$ （链式法则，L是q的函数，q是w的函数）（同方法一）
梯度下降法更新参数w： $w_{t+1}=w_t-\alpha \cdot \frac{\partial L}{\partial w}|_{w=w_t}$ （同方法一）

TD算法特点：不必等一次完整旅途结束就可以更新模型参数，走一步就能更新一次。用TD算法来训练打游戏的DQN非常合适：不需要打完游戏就能更新DQN参数。

五、用TD算法训练DQN

（一）将TD算法用在DQN中：

在估计旅途耗时的例子中，NYC到ATL的总估计时间约等于 NYC到DC的真实时间加上 DC到ATL的估计时间。类比到深度强化学习中， $Q(s_t,a_t;w) \approx r_t + \gamma \cdot Q(s_{t+1}, a_{t+1}; w)$ 表示：DQN在t时刻做的估计值（期望）约等于在t时刻观测到的真实奖励加上 DQN在t+1时刻做的估计值（期望）。

下面解释公式 $Q(s_t,a_t;w) \approx r_t + \gamma \cdot Q(s_{t+1}, a_{t+1}; w)$ 的来源：

回顾 $U_t$ 的定义： $U_t$ 是回报（Return），表示t时刻开始未来执行一组动作后能够获得的奖励之和：

$U_t = R_t + \gamma \cdot R_{t+1} + \gamma ^2 \cdot R_{t+2} + \gamma ^3 \cdot R_{t+3} + \gamma ^4 \cdot R_{t+4} + \cdots$

从第二项起，拿出公有的 $\gamma$ ，将公式变为：

$U_t = R_t + \gamma \cdot (R_{t+1} + \gamma \cdot R_{t+2} + \gamma ^2 \cdot R_{t+3} + \gamma ^3 \cdot R_{t+4} + \cdots)$

根据回报的定义，上式括号里的项共同表示了回报 $U_{t+1}$ ，则公式变为：

相邻两个时刻的折扣回报之间的关系： $U_t = R_t + \gamma \cdot U_{t+1}$

DQN在t时刻的输出是 $Q(s_t,a_t;w)$ ，这是对回报 $U_t$ 的期望的近似： $Q(s_t,a_t;w) \approx \mathbb{E}[U_t]$

DQN在t+1时刻的输出是 $Q(s_{t+1},a_{t+1};w)$ ，这是对回报 $U_{t+1}$ 的期望的近似： $Q(s_{t+1},a_{t+1};w) \approx \mathbb{E}[U_{t+1}]$

因此， $Q(s_t,a_t;w) \approx r_t + \gamma \cdot Q(s_{t+1},a_{t+1};w)$ .

约等号左边是DQN的预测，右边是TD target.

（二）用TD算法训练DQN的模型参数

TD算法的一次循环由如下步骤组成，每次循环更新一次模型参数w：

在 $t$ 时刻，观测到当前的状态 $s_t$ 和做出的动作 $a_t$ ，DQN做一个预测，即输出一个当前动作的得分： $q_t = Q(s_t, a_t; w_t)$ ， $w_t$ 是当前的模型参数；
在 $t+1$ 时刻，模型观测到了真实奖励 $r_t$ ，并观测到了一个新的状态 $s_{t+1}$ ，因此可以用DQN算出下一个动作 $a_{t+1}$ . 动作 $a_{t+1}$ 的选择依据是：DQN对每一个动作打分，选得分最高的那个动作为 $a_{t+1}$ ；
计算TD target： $y_t = r_t + \gamma \cdot Q(s_{t+1}, a_{t+1}; w_t)$ ，因为 $a_{t+1}$ 是得分最高的动作，因此， $y_t = r_t + \gamma \cdot max_{a}Q(s_{t+1}, a; w_t)$ .
计算最初预测值 $Q(s_t, a_t; w_t)$ 和TD target的损失函数Loss： $L_t=\frac{1}{2}(q_t-y_t)^2.$
计算梯度： $\frac{\partial L_t}{\partial w} = \frac{\partial q_t}{\partial w}\cdot \frac{\partial L_t}{\partial q_t}=(q_t-y_t)\cdot \frac{\partial Q(w)}{\partial w}|_{w=w_t}$ . 记 $d_t = \frac{\partial Q(w)}{\partial w}|_{w=w_t}$ ，这个梯度可以用Pytorch自动求。
梯度下降法更新参数w： $w_{t+1}=w_t-\alpha \cdot \frac{\partial L_t}{\partial w}|_{w=w_t} = w_t-\alpha \cdot (q_t - y_t) \cdot d_t$ .

m0_59838738

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Value-based learning（价值学习）入门（使用DQN）

以下内容总结自B站：深度强化学习(Deep Reinforcement Learning)_哔哩哔哩_bilibili一、概述：Value-based learning（价值学习）：使用神经网络Deep Q network（DQN）来近似学习；使用时间差分（TD：temporal different）算法来训练DQN，即学习神经网络的参数。二、概念回顾：1、基于策略的动作价值函数（Action-value function）：，表示时刻状态下做动作之后能获得的回报的期望。是回报.
复制链接

扫一扫