强化学习[2]——常用算法描述

QKKKKathy

已于 2022-12-05 12:13:08 修改

阅读量212

点赞数

分类专栏：强化学习文章标签：算法

于 2022-12-05 11:47:14 首次发布

本文链接：https://blog.csdn.net/qkkkkathy/article/details/128183912

版权

强化学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

参考：

《动手学强化学习》张伟楠、沈键、俞勇
强化学习课程：https://www.bilibili.com/video/BV1oN4y1F7UM/
强化学习入门第三讲蒙特卡罗方法：https://zhuanlan.zhihu.com/p/25743759
强化学习进阶第六讲策略梯度方法：https://zhuanlan.zhihu.com/p/26174099
强化学习入门第四讲时间差分法（TD）：https://zhuanlan.zhihu.com/p/25913410
A2C、A3C：https://blog.csdn.net/qq_43838114/article/details/127257760

本文是对以上参考链接的学习总结，如果错误欢迎指出~

文章目录

- 2. 常用算法描述

2. 常用算法描述

2.1 动态规划

动态规划的基本思想是将待求解问题分解成若干个子问题，先求解子问题，然后从这些子问题的解得到目标问题的解。

动态规划会保存已解决的子问题的答案，在求解目标问题的过程中可以直接使用。

使用动态规划求解的核心在于寻找最优的策略 $\pi$ 以最大化值函数，动态规划方法要事先知道环境的状态转移函数和奖励函数。

2.1.1 策略迭代算法

对当前策略进行策略评估，得到其状态价值函数，根据该状态价值函数进行策略提升以得到一个更好的新策略

（1）策略评估

当知道奖励函数和状态转移函数时，就可以根据下一个状态的价值来计算当前状态的价值了，也就是在当前策略下对当前状态进行评估。

即
$\begin{aligned} V_{k+1}(s)=\sum\limits_{a\in \mathcal{A}}\pi(a|s)\left(r(s,a)+\gamma \sum\limits_{s'\in \mathcal{S}}P(s'|s,a)V_k(s')\right) \end{aligned}$
可知， $V_k=V_\pi$ 是以上更新公式的一个不动点。当 $\rightarrow \infty$ 时，序列 ${V_k\}$ 会收敛到 $V_\pi$ 。

（2）策略提升

在每一个状态选择动作价值最大的动作，即 $\pi'(s)=\arg\max\limits_a q_\pi(s,a)=\arg\max\limits_a \{r(s,a)+\gamma\sum\limits_{s'}P(s'|s,a)V_\pi(s') \}$

此时，策略 $\pi'$ 能够比策略 $\pi$ 更好，或者至少一样好。

算法流程：

在这里插入图片描述

2.1.2 价值迭代算法

可以被认为是一种策略评估只进行了一轮更新的策略迭代算法，价值迭代中不存在显示的策略，只维护一个状态价值函数。

算法流程：

在这里插入图片描述

2.2 蒙特卡洛

蒙特卡洛方法是一种基于概率统计的数值计算方法，通常使用重复随机抽样，利用概率统计方法从抽样结果中归纳出想要得到的目标数值估计。

使用蒙特卡洛方法估计一个策略在一个马尔可夫决策过程中的状态价值，可以用策略在MDP上采样很多条序列，计算从这个状态出发的回报再求期望，公式为 $V_\pi(s)=E_\pi[G_t|S_t=s]\approx \frac{1}{N}\sum\limits_{i=1}^N G_t^{(i)}$

利用蒙特卡罗方法求状态 $s$ 处的值函数时，可以分为第一次访问蒙特卡罗方法和每次访问蒙特卡罗方法。

第一次访问蒙特卡罗方法是指，在计算状态 $s$ 处值函数时，只利用每次试验中第一次访问到状态 $s$ 时的返回值，公式为 $v(s)=\frac{G_{11}(s)+G_{21}(s)+\dots}{N(s)}$
每次访问蒙特卡罗方法是指，在计算状态 $s$ 处的值函数时，利用所有访问到状态 $s$ 时的回报返回值，公式为 $v(s)=\frac{G_{11}(s)+G_{12}(s)+\dots+G_{21}(s)+\dots}{N(s)}$

根据大数定律有，当 $\rightarrow \infty$ 时，有 $\rightarrow v_\pi(s)$

2.3 Sarsa

该算法是一种基于值函数的强化学习方法，其动作价值更新用到了当前状态 $s$ 、当前动作 $a$ 、获得的奖励 $r$ 、下一个状态 $s^{'}$ 、下一个动作 $a^{'}$ ，因此得名Sarsa。

在不知道奖励函数和状态转移函数的情况下，可以直接用时序差分算法来估计动作价值函数 $Q$ ：
$q(s_t,a_t)\leftarrow q(s_t,a_t)+\alpha [r_{t}+\gamma q(s_{t+1},a_{t+1})-q(s_t,a_t)]$
之后，可以采用贪婪算法或 $\varepsilon-soft$ 贪婪策略来选取在某个状态下动作价值最大的动作，即 $\arg \max\limits_{a} q(s,a)$ 。

在实际算法实现的过程中，主要维护一张表——Q_table()，该表用来存储当前策略下所有状态动作对的价值，在与环境交互时，用贪婪算法或 $\varepsilon-soft$ 贪婪策略根据动作价值选取动作来和环境交互，再根据得到的数据用时序差分算法更新动作价值估计。

算法流程：

在这里插入图片描述

多步Sarsa

Sarsa算法中动作价值函数的更新只用到了一步时序差分，这样的估计方式使得估计价值与真实价值偏差较大，因此可以使用n步的奖励来估计当前状态的价值，也就是对应的多步Sarsa算法：
$q(s_t,a_t)\leftarrow q(s_t,a_t)+\alpha[r_{t}+\gamma r_{t+1}+\dots+\gamma^n q(s_{t+n},a_{t+n})-q(s_t,a_t)]$

$\varepsilon-soft$ 策略

因为探索是强化学习能够获得更好策略的一个非常重要的方式，为了防止强化学习算法只单纯的利用已知价值最大的动作，可以设计一种较为温和的探索方式： $\varepsilon-soft$ 。该策略使得采用动作集中的每个动作的概率都大于0，也就是尽可能保证每个状态都能访问到。

$\varepsilon-soft$ 策略如下：

$\pi (a|s)=\begin{cases} \epsilon/|A|+1-\epsilon \qquad if \quad a=\arg\max_{a'}q(s,a') \\ \epsilon/|A| \qquad 其他动作 \end{cases}$
即有 $1-\epsilon$ 的概率采用动作价值最大的那个动作，有 $\epsilon$ 的概率从动作空间中随机采取一个动作

2.4 Q-learning

TD的off-policy版本。

该算法的时序差分更新方式为：
$q(s_t,a_t)\leftarrow q(s_t,a_t)+\alpha[r_{t}+\gamma \max\limits_a q(s_{t+1},a)-q(s_t,a_t)]$
具体流程为：

在这里插入图片描述

Q-learning与Sarsa比较

算法	Q-learning	Sarsa
相同点	基于时序差分的思想	基于时序差分的思想
不同点	$q(s_t,a_t)\leftarrow q(s_t,a_t)+\alpha[r_{t}+\gamma \max\limits_a q(s_{t+1},a)-q(s_t,a_t)]$	$q(s_t,a_t)\leftarrow q(s_t,a_t)+\alpha [r_{t}+\gamma q(s_{t+1},a_{t+1})-q(s_t,a_t)]$
策略	离线策略（off-policy）	在线策略（on-policy）
	Q-learning算法更新动作价值函数采用贪婪法策略，选择当前最大的动作价值函数更新，此时采用的a并不会被真正执行；与环境交互时还是会按照epsilon-soft法的策略选择a	Sarsa优化的是它实际执行的策略，它直接拿下一步会执行的action来去优化Q，即在学习的过程中，用一种策略去做action的选取，也用同一种策略去做优化。

2.5 DQN及其改进

2.5.1 DQN算法

2.3和2.4展示的方法更多的是基于表格Q_table来进行更新学习的，但是在状态或动作数量非常大，或状态和动作连续的时候，就无法使用表格的方式来进行强化学习。因此，可以考虑使用神经网络来表示函数 $Q$ 。

假设神经网络拟合函数的参数为 $w$ ，则每一个状态 $s$ 下所有可能动作 $a$ 的 $Q$ 值为 $q_w(s,a)$ ，用于拟合函数的神经网络为 $Q$ 网络。网络的输入是当前状态，输出是agent根据当前状态得到的所有动作的动作价值函数。

（1）经验回放

为了重复利用经验数据，同时打散各状态之间的相关性，DQN中提出了经验回放策略。具体操作方式是将每次从环境采样得到的四元组数据（状态、动作、奖励、下一状态）放到replay buffer中，训练网络的时候，随机采样若干数据进行训练。

进一步的，为了更高效的利用数据，还有一种优先回放算法，也就是给replay buffer中的各条数据设定不同的采样概率，也可以理解为数据的优先级。一般情况下，认为具有较大TD偏差的数据对于参数更新量越大，学习效率越高，对应的优先级也就越高。

（2）目标网络

目标网络是DQN算法的另一个技巧。

DQN算法的更新目标是让 $q_w(s,a)$ 逼近 $r+\gamma \max\limits_{a' \in \mathcal{A}}q_w(s',a')$ ，可以看到，在利用梯度上升法更新网络参数的同时，还使得网络学习的目标也发生了变化，这种学习方式很不稳定。

因此可以使用两套网络进行训练学习：

**原来的训练网络 $q_w(s,a)$ 。**采用正常梯度下降的方式进行更新。
目标网络 $q_{w^-}(s,a)$ 。 $w^-$ 表示目标网络中的参数，为了让更新目标更稳定，目标网络使用训练网络的一套比较旧的参数。训练网络 $q_w(s,a)$ 在训练中的每一步都会更新，而目标网络的参数每隔 $C$ 步才会与训练网络同步一次
此时的损失函数为： $L=\frac{1}{2} [q_w(s,a)-(r+\gamma \max\limits_{a' \in \mathcal{A}}q_{w^-}(s',a'))]^2$
值函数的更新其实是参数的更新，使用梯度下降法更新参数 $w_{t+1}=w_t+\alpha[r+\gamma \max _{a'}q_{w^-}(s',a')-q_w(s,a)]\bigtriangledown q_w(s,a)$

DQN算法流程：

在这里插入图片描述

2.5.2 Double DQN（DDQN）

该算法主要用来解决DQN对Q值的过高估计，在动作选择数过多的环境中，Q值的过高估计会更严重

DQN算法中首先选取了当前状态下的最优动作，接着根据最优动作计算对应价值。由于神经网络的误差，这种方式下容易产生正向误差积累，也就是出现了目标的过高估计，为了解决这一问题，提出了Double DQN网络。

Double DQN算法提出使用两套神经网络来完成，即将目标改写为： $q_{w^-}(s',\arg\max\limits_{a'}q_{w}(s',a'))$

具体做法为：一套神经网络 $q_w$ 来选取价值最大的动作，另一套神经网络 $q_{w^-}$ 来计算该动作的价值。将其与传统DQN算法结合，即使用训练网络来选取动作，使用目标网络来计算动作的价值。

2.5.3 Dueling DQN

该算法能够很好地学习到不同动作的差异性，在动作空间较大的环境下非常有效

该方法将状态价值函数和优势函数分开建模，以期智能体能更好地处理与动作关联度较小的状态。

在Dueling DQN中，Q网络被建模为 $q_{\eta,\alpha,\beta}(s,a)=V_{\eta,\alpha}(s)+A_{\eta,\beta}(s,a)-\max_{a'} A_{\eta,\beta}(s,a')$ ，其中，

$V_{\eta,\alpha}(s)$ 为状态价值函数
$A_{\eta,\beta}(s,a)$ 为该状态下采取不同动作的优势函数，表示采取不同动作的差异性
$\eta$ 是状态价值函数和优势函数共享的网络参数，常在神经网络中，提取特征的前几层
$\alpha,\beta$ 分别是状态价值函数和优势函数的参数
$\max_{a'} A_{\eta,\beta}(s,a')=0$ ，保证建模的唯一性，其值也可以替换为 $\frac{1}{|A|}\sum_{a'}A_{\eta,\beta}(s,a')$
模型的最后几层的两个分支分别输出状态价值函数和优势函数，求和得到 $q$ 值

总结：

DQN算法的优化目标为： $r+q_{w^-}(s',\arg\max\limits_{a'}q_{w^-}(s',a'))$ ，动作的选取依靠目标网络
Double DQN算法的优化目标为： $r+\gamma q_{w^-}(s',\arg\max_{a'}q_w(s',a'))$ ，动作的选取依靠训练网络
Dueling DQN算法的优化目标为： $q_{\eta,\alpha,\beta}(s,a)=V_{\eta,\alpha}(s)+A_{\eta,\beta}(s,a)-\max_{a'} A_{\eta,\beta}(s,a')$

2.6 REINFORCE

在该算法中，智能体根据当前策略直接和环境交互，利用采样得到的完整的轨迹数据（从开始到结束）直接计算策略参数的梯度，进而更新当前策略。该算法使用蒙特卡洛方法来估计梯度策略中的 $Q^{\pi_\theta}$ 。

具体流程为：

在这里插入图片描述

2.7 A2C、A3C

2.7.1 A2C

A2C的全称是Advantage Actor Critic。 A2C的出现是为了解决AC的高方差问题。

动作的回报都是正值并不代表动作都是好的，有些未探索到的动作可能得到的回报会比该动作更好。为了有选择地学习更好的行为，常常给Q值增加一个基线，使得反馈有正有负，在不改变策略梯度的同时，降低方差。这里的基线通常用状态的价值函数来表示。
此时的梯度可以表示为：
$g=E_\pi[(Q_\pi(s_t,a_t)-V_\pi(s_t)) \bigtriangledown_\theta \log \pi_\theta(a_t|s_t)]$

2.7.2 A3C

A3C全称为异步优势动作评价算法（Asynchronous advantage actor-critic）。

A3C使用了异步的方式来解决网络训练时数据独立同分布的问题，异步是指数据并非同时产生，其模型如下：
在这里插入图片描述

每个worker从global network中取参数，之后与环境互动输出行为
每个worker周期性地(Tmax)独立更新global network的参数，就是将自己累积的梯度更新到global network，然后更新最新的网络参数

2.8 PPO

PPO属于在线策略算法，因为即使优化目标中包含重要性采样的过程，但是只用到了上一轮策略的数据，而不是过去所有策略的数据。

PPO是A-C框架，actor网络负责输出策略，critic网络负责输出value-function（或者advantage-function）辅助actor进行评估。

2.8.1 TRPO

在深度模型更新参数的过程中，可能由于步长太长，使得策略突然变差。所以，可以通过设置一些限制条件，划定参数更新的区域，使得参数的更新只在所划区域上进行。这种方法称为信任区域策略优化（trust region policy optimization，TRPO）算法。

假设当前策略为 $\pi_\theta$ ，参数为 $\theta$ ，借助 $\theta$ 寻找一个更优参数 $\theta'$ ，得到新的策略 $\pi_{\theta'}$ ，通过推导得到的算法目标如下：
$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ \max_\theta E_…$
PPO算法基于TRPO的思想，但是实现更加简单。主要有两种形式，一种是PPO-惩罚，一种是PPO-截断。

2.8.2 PPO-惩罚

PPO-penalty用拉格朗日乘数法将KL散度的限制放入目标函数中，将其转换成一个无约束的优化问题，在迭代的过程中不断更新KL散度前的系数。即：
$\arg\max_\theta E_{s\sim v^{\pi_{\theta_k}}}E_{a\sim \pi_{\theta_{k}}(\cdot|s)}\left[\frac{\pi_{\theta'}(a|s)}{\pi_{\theta_k}(a|s)}A^{\pi_{\theta_k}}(s,a) -\beta D_{KL}(\pi_{\theta_{k}}(\cdot|s),\pi_{\theta'}(\cdot|s)) \right]$
令 $d_k=D_{KL}^{v^{\pi_{\theta_k}}}(\pi_{\theta_k},\pi_{\theta'})$ ， $\beta$ 按照如下规则更新：

$d_k<\delta/1.5,\beta_{k+1}=\beta_k/2$
$d_k>1.5\times \delta,\beta_{k+1}=2\times \beta_k$
否则， $\beta_{k+1}=\beta_k$

$\delta$ 是超参数，用于限制学习策略和前一轮策略的差距

2.8.3 PPO-截断

PPO-clip对目标函数进行限制，保证新旧参数的差距不会过大：
$\arg\max_{\theta'} E_{s\sim v^{\pi_{\theta_k}}}E_{a\sim \pi_{\theta_{k}}(\cdot|s)}\left[\min\left( \frac{\pi_{\theta'}(a|s)}{\pi_{\theta_k}(a|s)}A^{\pi_{\theta_k}}(s,a),clip\left(\frac{\pi_{\theta'}(a|s)}{\pi_{\theta_k}(a|s)},1-\epsilon,1+\epsilon\right)A^{\pi_{\theta_k}}(s,a) \right)\right]$
其中，

$clip(x,l,r)=\max(\min(x,r),l)$ ，即 $x\in[l,r]$
$\epsilon$ 是一个超参数，表示进行截断的范围
如果 $A^{\pi_{\theta_k}}(s,a)>0$ ，则说明动作的价值高于平均值，式子会增大 $\frac{\pi_{\theta'}(a|s)}{\pi_{\theta_k}(a|s)}$ ，但不会超过 $1+\epsilon$
如果 $A^{\pi_{\theta_k}}(s,a)<0$ ，式子会减小 $\frac{\pi_{\theta'}(a|s)}{\pi_{\theta_k}(a|s)}$ ，但不会小于 $1-\epsilon$

2.9 DDPG

深度确定性策略梯度（deep deterministic policy gradient，DDPG）算法，它能够使用离线策略算法来处理动作空间无限的环境，通过构造一个确定性策略，用梯度上升的方法来最大化 $Q$ 值。

该算法依旧使用actor-critic架构，critic网络表示动作价值 $q$ ，actor网络表示策略 $\mu$ 。

确定性策略梯度定理为：
$\bigtriangledown_\theta J(\pi_\theta)=E_{s\sim v^{\pi_\beta}}[\bigtriangledown_\theta\mu_\theta(s)\bigtriangledown_aq_w^\mu(s,a)|_{a=\mu_\theta(s)}]$
其中， $\pi_\beta$ 是用来收集数据的行为策略。

该定理可以理解为，假设已有函数 $q$ ，给定状态 $s$ ，由于现在动作空间是无限的，因此，利用确定性策略 $\mu$ 来找到使 $q (s, a)$ 值最大的动作 $a$ ，即 $\mu(s)=\arg\max_aq(s,a)$ ，此时动作也是确定的，不具有随机性。

DDPG在实现时需要4个神经网络，其中actor和critic各用一个网络，并各自都再有一个目标网络。DDPG中，目标网络使用公式： $w^{-}\leftarrow \tau w+(1-\tau)w^{-}$ 对参数进行更新，这种方式称为软更新，其中 $\tau$ 是一个比较小的数，当其值为1时，与DQN的更新方式一样

为了解决 $Q$ 函数的过高估计问题，DDPG使用训练网络来选取动作，使用目标网络来计算动作的价值对 $Q$ 网络进行更新。同时，DDPG在行为策略上引入随机噪声 $\mathcal{N}$ 来增强探索能力。

DDPG算法的具体流程为：

在这里插入图片描述

确定性策略与随机策略的比较

	随机策略	确定性策略
policy	$\pi(a\|s;\theta)$	$\pi(s;\theta)$
input	$s$	$s$
output	动作空间上的概率分布，每个动作都有一个对应发生的概率值	确定的动作（一个值或是一个向量）
control agent	从概率分布中随机采样动作让agent执行	确定的动作，没有随机性
场景	离散控制	连续控制

2.10 SAC

Soft Actor-Critic（SAC）算法是离线策略算法，属于最大熵强化学习的范畴，该算法提出使用一个Actor表示策略函数。

最大熵强化学习是指除了要最大化累积奖励，还要使得策略更加随机，因此修改强化学习的目标为：
$\pi^*=\arg\max_\pi E_\pi \left[\sum_t r(s_t,a_t) + \alpha H(\pi(\cdot|s_t)) \right]$
其中， $\alpha$ 是一个正则化系数，控制熵的重要程度。如果想探索更多的动作可能，就可以适当增大 $\alpha$ 的取值来增强探索能力，减少策略陷入较差的局部最优的可能。

SAC算法中，定义两个动作价值函数 $q$ ，也就是说有两个动作价值网络，其参数分别为 $w_1$ 和 $w_2$ ，并且这两个网络分别有一个目标网络，其参数分别为 $w^-_1$ 和 $w_2^-$ ；定义一个策略函数 $\pi$ ，也就是说有一个策略网络，其参数为 $\theta$ 。同时，为了能够自动化调整熵的正则化项系数 $\alpha$ ，算法约束了熵的均值需要大于 $H_0$ ，导出 $\alpha$ 的损失函数，在算法中进行 $\alpha$ 的更新。