第二十七课.深度强化学习(二)

最新推荐文章于 2023-12-13 23:41:43 发布

tzc_fly

最新推荐文章于 2023-12-13 23:41:43 发布

阅读量184

点赞数

分类专栏：机器学习笔记本

本文链接：https://blog.csdn.net/qq_40943760/article/details/118486947

版权

机器学习笔记本专栏收录该内容

37 篇文章 47 订阅

订阅专栏

概述

以超级玛丽为例：多捕捉金币，避开敌人，向前走，直到通关。我们要做的是写一个算法控制agent。我们可以有下面的方式：

第一种做法是学习policy函数 $\pi(a|s)$ ，这属于强化学习中的策略学习（Policy-Based Learning），当我们获得策略后，进行以下操作：

观测当前状态 $s_{t}$ ；
随机抽样： $a_{t}\sim\pi(\cdot|s_{t})$ 。

另一种做法是学习最优动作-价值函数（optimal action-value function） $Q^{*}(s,a)$ ，这属于强化学习中的价值学习（Value-Based Learning），当我们获得价值函数后，进行以下操作：

观测当前状态 $s_{t}$ ；
选择 $Q^{*}(s,a)$ 最大化对应的动作： $a_{t}=argmax_{a}Q^{*}(s_{t},a)$ 。

关于第二种做法，进行下面的补充：对于 $t$ 时刻，我们可以使用不同的policy，这就导致我们可以计算出不同的回报期望 $Q_{\pi}(s_{t},a)$ ，但我们选择 $t$ 时刻回报期望最大的policy，得到该时刻下，对于不同policy，选择动作 $a$ 的最大回报 $Q^{*}(s_{t},a)$ ，我们统计所有 $a$ 对应的 $Q^{*}(s_{t},a)$ ，取回报最大的那个action作为最优动作 $a_{t}$ 。

本篇将以深度学习的方式，获取策略函数，或者获取最优动作-价值函数，故称为深度强化学习。

价值学习

Deep Q Network

如果我们知道最优动作-价值函数 $Q^{*}(s,a)$ ，我们可以获得最优动作： $a^{*}=argmax_{a}Q^{*}(s,a)$ 但问题是我们不知道这个函数，所以提出DQN（Deep Q Network），使用神经网络 $Q (s, a; w)$ 去近似函数 $Q^{*}(s,a)$ ，其中 $w$ 是神经网络的参数。

解释：价值学习的想法就是学习一个函数近似 $Q^{*}(s,a)$ ，理论上，我们不能找到一个函数可以像 $Q^{*}(s,a)$ 一样准确预测未来的回报，但以超级玛丽为例，如果我们进行游戏成千上万次，当我们面对某个状态，执行某个动作时，将会有一定把握判断未来的回报是怎样的。因此，我们可以相信，我们能够使用某个函数去近似这个"预言家"的功能。

不同的问题，DQN结构是不一样的，我们以超级玛丽这个问题为例，我们可以用卷积网络和全连接网络构造DQN：
fig1
我们只需从网络输出的结果中索引最优动作即可： $a_{t}=argmax_{action}[Q(s_{t},left;w_{t}),Q(s_{t},right;w_{t}),Q(s_{t},up;w_{t})]$ 将DQN用于进行游戏时，可以得到以下轨迹：
fig2
从 $t$ 时刻开始说明：根据状态 $s_{t}$ ，输入DQN，对所有动作进行打分，选择得分最高的动作成为 $a_{t}$ ，当agent执行 $a_{t}$ 后，环境更新状态，用状态转移函数 $p$ 随机采样一个状态作为 $s_{t+1}$ ，环境还会返回奖励 $r_{t}$ ，奖励是强化学习中的监督信号，DQN依据奖励进行训练。

DQN的训练：TD算法（Temporal Difference Learning）

DQN通过TD算法训练，TD算法是Temporal Difference Learning的简称。TD算法较难理解，所以先以例子说明；

假设我现在驾车从纽约前往亚特兰大，同时有一个函数 $Q$ ，参数是 $w$ ，它可以估计出行的时间开销，比如要1000分钟才能到达亚特兰大。

1000分钟是模型的初始解，但如果很多人都来使用模型，就可以把模型更新到能准确做出预测。那应该如何更新？

首先，我们使用初始模型进行预测： $q = Q (w)$ ，得到 $q = 1000$ ；

然后我驾车到达亚特兰大，发现实际使用860分钟，我们把真实时间开销记为： $y = 860$ ；
fig3

自然地，估计与真实有差别，就产生损失： $L=\frac{1}{2}(q-y)^{2}$ ；

由此可以计算损失关于参数的梯度： $\frac{\partial L}{\partial w}=\frac{\partial q}{\partial w}\cdot\frac{\partial L}{\partial q}=(q-y)\cdot\frac{\partial Q(w)}{\partial w}$ 我们根据梯度更新参数（梯度下降）： $w_{t+1}=w_{t}-\alpha\cdot\frac{\partial L}{\partial w}|_{w=w_{t}}$ 这种更新方式对于DQN训练是不利的，因为我们必须进行完全路程（进行整个游戏）才能更新参数，我们想要的是只进行部分就能更新，比如我们不到亚特兰大，我们到中间的华盛顿DC就停下，再也不去亚特兰大。面对这种情况又该如何处理？
fig4
我们现在能够得到的信息有：

模型估计纽约到亚特兰大花费1000分钟；
纽约到DC实际花费300分钟；
模型估计DC到亚特兰大花费600分钟；

因此，我可以更新纽约到亚特兰大的估计为300+600=900分钟。在TD算法中，新的估计900被称为TD target，TD target虽然也是估计，但它比最初的估计1000更加可靠，因为其中有一定的实际成分。现在我们把TD target赋值到 $y$ ，所以得到损失（也称为TD error）： $L=\frac{1}{2}(q-y)^{2}$ ，后续则计算梯度再更新参数。

把TD算法用于DQN的学习是一样的道理，我们不需要进行完整个游戏，也可以更新参数。

在前面驾车的例子中，我们有以下关系： $T_{NYC\rightarrow ATL}\approx T_{NYC\rightarrow DC}+T_{DC\rightarrow ATL}$ 其中， $T_{NYC\rightarrow ATL}$ 和 $T_{DC\rightarrow ATL}$ 都是模型的估计值， $T_{NYC\rightarrow DC}$ 是实际值。

对应到DQN，我们可以有如下关系： $Q(s_{t},a_{t};w)\approx r_{t}+\gamma Q(s_{t+1},a_{t+1};w)$ 注意到折扣率 $\gamma$ 曾出现在折扣回报中，折扣回报可表示为：
fig5
所以有： $U_{t}=R_{t}+\gamma U_{t+1}$ 注意一个规范：大写字母代表随机变量，小写字母则代表随机变量的观测值。

DQN的输出 $Q(s_{t},a_{t};w)$ 为 $U_{t}$ 的期望 $E[U_{t}]$ 的估计值， $Q(s_{t+1},a_{t+1};w)$ 为 $U_{t+1}$ 的期望 $E[U_{t+1}]$ 的估计值，所以有： $Q(s_{t},a_{t};w)\approx E[R_{t}+\gamma Q(s_{t+1},a_{t+1};w)]=r_{t}+\gamma Q(s_{t+1},a_{t+1};w)$
下面我们开始训练DQN，以 $t$ 时刻为例：

首先，我们用网络预测回报 $Q(s_{t},a_{t};w_{t})$ ，选择最优动作 $a_{t}$ ；
然后执行动作 $a_{t}$ ，获得奖励观测值 $r_{t}$ ，环境也更新状态为 $s_{t+1}$ ，此时再次调用网络可以得到TD target： $y_{t}=r_{t}+\gamma Q(s_{t+1},a_{t+1};w_{t})=r_{t}+\gamma\cdot max_{a}\left\{Q(s_{t+1},a;w_{t})\right\}$
然后我们计算损失TD error： $L_{t}=\frac{1}{2}[Q(s_{t},a_{t};w_{t})-y_{t}]^{2}$
我们计算梯度并更新参数： $w_{t+1}=w_{t}-\alpha\cdot\frac{\partial L_{t}}{\partial w}|_{w=w_{t}}$

策略学习

Policy Network

在深度强化学习中，对于策略学习，我们使用神经网络去近似策略函数，在前面的内容中，我们知道，策略函数通常记为 $\pi(a|s)$ ，它是一个概率密度函数PDF。

策略函数输入当前状态 $s$ ，再输出各个动作的存在概率： $\pi(left|s)=0.2$ $\pi(right|s)=0.1$ $\pi(up|s)=0.7$ agent将会根据这个概率分布进行随机抽样，从中采样出一个动作 $a$ 去执行。

我们使用神经网络去近似函数 $\pi(a|s)$ ，因此提出策略网络 Policy Network $\pi(a|s;\theta)$ ，其中， $\theta$ 是网络的参数。

以超级玛丽游戏为例，我们可以使用以下网络：
fig6
使用softmax函数的意义在于将全连接网络的得分转为概率分布。

接下来再次回顾一下折扣回报： $U_{t}=R_{t}+\gamma R_{t+1}+\gamma^{2}R_{t+2}+\cdot\cdot\cdot$ 其中， $U_{t}$ 的随机性来自状态的随机变量 $S_{t+1},S_{t+2},...$ 和动作的随机变量 $A_{t},A_{t+1},...$ ，但在计算期望时，由于我们对后续不确定性的随机变量进行积分或求和，最终使得期望与初始观测值 $s_{t}$ 和 $a_{t}$ ，以及策略函数 $\pi(a|s)$ ，状态转移函数 $p (s^{'} ∣ s, a)$ 有关。由于状态转移函数是环境决定的，故提出动作-价值函数action-value function并记作： $Q_{\pi}(s_{t},a_{t})=E[U_{t}|S_{t}=s_{t},A_{t}=a_{t}]$ 该函数的意义在于：给定当前状态 $s_{t}$ 和策略函数 $\pi$ ，通过计算 $Q_{\pi}$ ，我们可以得到agent执行 $a_{t}$ 后的 $U_{t}$ 的期望，从而可判断哪个动作可以获得更多回报。

状态-价值函数即state-value function，它是action-value function关于动作的期望： $V_{\pi}(s_{t})=E_{A}[Q_{\pi}(s_{t},A)]$ 其中， $A$ 是动作的随机变量， $A\sim\pi(\cdot|s_{t})$ 。

状态-价值函数的意义在于： $V_{\pi}$ 可以反映当前状态的局势好坏，假设我们根据policy函数下围棋， $V_{\pi}$ 可以通过当前的棋盘状态告诉我们是快要胜利，还是快要失败。

如果动作是离散的，我们可以将state-value function表达为： $V_{\pi}(s_{t})=E_{A}[Q_{\pi}(s_{t},A)]=\sum_{a}\pi(a|s_{t})Q_{\pi}(s_{t},a)$ 如果动作是连续的，比如自动驾驶的方向盘角度（-90度到+90度之间的连续值），我们可以将state-value function表达为： $V_{\pi}(s_{t})=E_{A}[Q_{\pi}(s_{t},A)]=\int_{-90}^{+90}\pi(a|s_{t})Q_{\pi}(s_{t},a)da$

策略网络训练：Policy Gradient算法

根据前面提到的状态-价值函数，并且我们用神经网络近似策略函数，所以可以得到状态-价值函数的表达： $V(s;\theta)=\sum_{a}\pi(a|s;\theta)\cdot Q_{\pi}(s,a)$ 策略学习的目标就是使得状态-价值尽量大，所以可以学习参数 $\theta$ 最大化 $V(S;\theta)$ 的期望 $J(\theta)$ ： $J(\theta)=E_{S}[V(S;\theta)]$ 策略网络越好，那么 $J(\theta)$ 将会越大。

假设当前观测到状态 $s$ ，由于要最大化 $J(\theta)$ ，所以我们用梯度上升更新参数： $\theta=\theta+\beta\cdot\frac{\partial V(s;\theta)}{\partial\theta}$ 其中， $\beta$ 是学习率，该更新过程中的梯度是随机梯度（被称为策略梯度），真正的梯度应该是目标函数 $J(\theta)$ 关于参数的梯度，随机性来源于 $s$ 。

通过计算推导，下面是策略梯度的两种表达形式： $\frac{\partial V(s;\theta)}{\partial\theta}=\sum_{a}\frac{\partial\pi(a|s;\theta)}{\partial\theta}\cdot Q_{\pi}(s,a)$ $\frac{\partial V(s;\theta)}{\partial\theta}=E_{A\sim\pi(\cdot|s;\theta)}[\frac{\partial log\pi(A|s;\theta)}{\partial\theta}\cdot Q_{\pi}(s,A)]$ 理论上两种形式等价，第一种形式适合计算离散型动作，第二种形式适合计算连续型动作或者离散型动作。一般采用第二种形式。

在实际的梯度计算中，我们用蒙特卡洛随机抽样近似策略梯度：

从策略函数分布（神经网络输出）中随机抽样一个动作 $\widehat{a}$ ： $\widehat{a}\sim\pi(\cdot|s;\theta)$
计算： $g(\widehat{a},\theta)=\frac{\partial log\pi(\widehat{a}|s;\theta)}{\partial\theta}\cdot Q_{\pi}(s,\widehat{a})$ 至此，我们用 $g(\widehat{a},\theta)$ 近似策略梯度 $\frac{\partial V(s;\theta)}{\partial\theta}$

蒙特卡洛就是从一个分布中抽一个或多个随机样本，通过随机样本近似期望

现在总结一下策略梯度更新策略网络的过程：

1.观测到状态 $s_{t}$ ；
2.从策略网络的输出分布中随机抽样一个动作 $a_{t}$ ： $a_{t}\sim\pi(\cdot|s_{t};\theta_{t})$ ；
3.计算： $q_{t}=Q_{\pi}(s_{t},a_{t})$
4.计算： $g(a_{t},\theta_{t})=q_{t}\frac{\partial log\pi(a_{t}|s_{t};\theta)}{\partial\theta}|_{\theta=\theta_{t}}$
5.梯度上升更新参数： $\theta_{t+1}=\theta_{t}+\beta\cdot g(a_{t},\theta_{t})$

注意到一个问题，第3步，我们还不知道 $Q_{\pi}$ ，所以不能计算 $q_{t}$ ，关于 $q_{t}$ 的计算，有两个方法：

第一种方法叫做Reinforce：

先用策略网络去进行游戏，从开始一直到结束，记录轨迹： $s_{1},a_{1},r_{1},s_{2},a_{2},r_{2},...,s_{T},a_{T},r_{T}$
根据轨迹计算折扣回报，对于任意的 $t$ 都计算： $u_{t}=\sum_{k=t}^{T}\gamma^{k-t}r_{k}$
直接用 $u_{t}$ 近似 $q_{t}$ ： $q_{t}=u_{t}$

对于这种方法，要求进行完整个游戏才能更新策略网络。

为了解决这个问题，可以采用第二种方法：新增神经网络近似 $Q_{\pi}$ 函数，这使得模型具有两个神经网络，一个用于近似 $Q_{\pi}$ ，一个用于近似 $\pi$ ，这就是Actor-Critic Methods。

Actor-Critic Methods

两个网络结合

在Actor-Critic Methods中，Actor用于谋划动作，Critic用于评价动作。该方法是策略学习和价值学习的结合。

在状态-价值函数中： $V_{\pi}(s)=\sum_{a}\pi(a|s)\cdot Q_{\pi}(s,a)$ 我们直接用策略网络 $\pi(a|s;\theta)$ 近似策略函数，用价值网络 $q (s, a; w)$ 近似动作-价值函数 $Q_{\pi}(s,a)$ ，其中， $\theta,w$ 均是可学习参数。

以超级玛丽为例，策略网络（Actor）为：
fig7
价值网络（Critic）为：
fig8
策略网络输入状态，输出动作的概率分布（向量）。

价值网络输入状态和动作的编码（离散型动作可以用One-hot向量编码），输出动作-价值得分（标量），即 $Q_{\pi}(s,a)$ 。

训练Actor与Critic

同时学习两个网络，让执行动作的策略越来越合理，对动作的评价也越来越准确。

我们现在可以得到状态-价值的表达： $V(s;\theta,w)=\sum_{a}\pi(a|s;\theta)\cdot q(s,a;w)$ 我们需要更新策略网络 $\pi(a|s;\theta)$ 以使得 $V(s;\theta,w)$ 更大。有趣的一点是，策略网络的目标实际是让agent的动作选择更优良，所以策略网络的监督信号来自价值网络；

我们也要更新价值网络 $q (s, a; w)$ 以使得对价值的估计更精准。价值网络的目标是对动作做出更准确的评价，所以监督信号来自环境返回给agent的奖励。

更新参数的过程如下：

1.观测到状态 $s_{t}$ ；
2.通过策略网络的概率分布进行随机抽样： $a_{t}\sim\pi(\cdot|s_{t};\theta_{t})$
3.agent执行动作 $a_{t}$ ，环境更新状态 $s_{t+1}$ ，并返回奖励 $r_{t}$ ；
4.用TD算法更新价值网络 $q (s, a; w)$ 的参数 $w$ ；
5.用policy gradient更新策略网络 $\pi(a|s;\theta)$ 的参数 $\theta$ 。

对于第4步，详细过程为（训练Critic）：

随机抽样动作： $a_{t+1}\sim\pi(\cdot|s_{t+1};\theta_{t})$
计算 $q(s_{t},a_{t};w_{t})$ 和 $q(s_{t+1},a_{t+1};w_{t})$ ；
计算TD target： $y_{t}=r_{t}+\gamma\cdot q(s_{t+1},a_{t+1};w_{t})$
计算损失： $L(w)=\frac{1}{2}[q(s_{t},a_{t};w_{t})-y_{t}]^{2}$
梯度下降更新参数： $w_{t+1}=w_{t}-\alpha\cdot\frac{\partial L(w)}{\partial w}|_{w=w_{t}}$

对于第5步，详细过程为（训练Actor）：

使用第2步来自随机抽样的动作 $a_{t}$
计算policy gradient的近似值： $g(a,\theta_{t})=\frac{\partial log\pi(a_{t}|s_{t};\theta)}{\partial\theta}\cdot q(s_{t},a_{t};w_{t})|_{\theta=\theta_{t}}$ 实验发现，如果用以下式子代替 $q(s_{t},a_{t};w_{t})$ ，最终的效果会更好，该式子为： $q(s_{t},a_{t};w_{t})-(r_{t}+\gamma q(s_{t+1},a_{t+1};w_{t}))$
梯度上升更新参数： $\theta_{t+1}=\theta_{t}+\beta\cdot g(a,\theta_{t})$

当训练结束后，将不再使用到价值网络，我们仅根据策略网络选择动作即可。

tzc_fly

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
第二十七课.深度强化学习(二)

目录概述价值学习Deep Q NetworkDQN的训练：TD算法（Temporal Difference Learning）策略学习Actor-Critic Methods概述以超级玛丽为例：多捕捉金币，避开敌人，向前走，直到通关。我们要做的是写一个算法控制agent。我们可以有下面的方式：第一种做法是学习policy函数π(a∣s)\pi(a|s)π(a∣s)，这属于强化学习中的策略学习（Policy-Based Learning），当我们获得策略后，进行以下操作：观测当前状态sts_{t}s
复制链接

扫一扫

专栏目录