强化学习——策略学习

菜到怀疑人生

已于 2025-01-17 11:58:10 修改

阅读量5.1k

点赞数 2

分类专栏：深度学习文章标签：深度学习人工智能机器学习

于 2022-04-12 15:59:20 首次发布

本文链接：https://blog.csdn.net/dhaiuda/article/details/124017278

版权

深度学习专栏收录该内容

58 篇文章

订阅专栏

文章目录

前言
策略学习概述
策略学习的目标
其他

前言

前段时间都在忙毕业论文，强化学习这块的总结就拉下了，本小节将对《深度强化学习》中的策略学习章节进行总结。如有错误，欢迎指出。

策略学习概述

价值学习让神经网络学习最优动作价值函数 $Q_{\pi}(s,a)$ ，而策略学习让神经网络学习最优策略函数 $\pi(a|s)$ ，其中 $a$ 表示智能体执行的动作， $s$ 表示环境状态。如下图所示，策略学习中的神经网络的输入为状态 $s$ ，输出为智能体执行各个动作的概率，接着依据概率随机抽样一个动作让智能体执行。
在这里插入图片描述
如未特殊提及，本文将利用 $a$ 、 $A$ 表示动作， $s$ 、 $S$ 表示状态， $\pi$ 表示策略。

策略学习的目标

不论是策略学习，还是价值学习，其目标都是让处于状态 $s_t$ 时刻的智能体，在执行一系列动作后得到的回报最大化。策略学习的目标为最大化状态价值函数 $V_\pi(S)$ ，其定义为
$V_\pi(S)=E_{A\sim \pi(.|S;\theta)}[Q\pi(A,S)]\tag{1.0}$
动作价值函数 $Q_\pi(A,S)$ 表示智能体使用策略 $\pi$ ，在状态 $S$ 做出动作后 $A$ 后获得回报的上限。而状态价值函数表示 $V_\pi(S)$ 表示智能体使用策略 $\pi$ ，处于状态 $S$ 时获得回报的上限。状态越好，状态价值函数取值越大，未来获得的回报也越大，例如《王者荣耀》中破敌方三高，经济领先敌方一万，这种状态下状态价值函数取值将较大，表示未来获得的回报将较大（控野区、拿双龙，甚至是破地方水晶）。依据状态价值函数的定义，策略学习的目标函数为
$\max J(\theta)=\max E_S[V_\pi(S)]\tag{1.1}$
即让神经网络学习到一个策略函数 $\pi$ ，能在任意状态下让状态价值函数的取值最大化。式1.1可以使用梯度上升法优化，因此需要计算 $J(\theta)$ 的梯度（又被称为策略梯度），经过一系列计算有
$\nabla J(\theta)=E_S[E_{A\sim \pi(.|S;\theta)}[Q_\pi(S,A)\nabla_{\theta}\ln\pi(A|S;\theta)]] \tag{1.2}$
式1.2的具体推导可以查看原文87页到91页。对式1.2使用蒙特卡洛近似，利用 $t$ 时刻智能体所处的状态 $s_t$ 和动作 $a_t$ ，则有
$\nabla J(\theta)=(1+\gamma+\gamma^2+...+\gamma^n)Q_\pi(s_t,a_t)\nabla_{\theta}\ln\pi(a_t|s_t;\theta) \tag{1.2}$
其中 $\gamma$ 表示回报的折扣率，n表示智能体完成一次游戏所经历的状态个数。 $(1+\gamma+\gamma^2+...+\gamma^n)$ 为常数，会被学习率所吸收，因此可以忽略不计。策略学习的目标是使用神经网络（又称为策略网络）拟合策略函数，因此式1.2中的 $\theta$ 表示策略网络的参数， $\nabla_{\theta}\ln\pi(a_t|s_t;\theta)$ 可以通过策略网络的反向传播计算得到。对于 $Q_\pi(s_t,a_t)$ ，存在REINFORCE和Actor-Critic两种方式近似表达。

策略学习方法：REINFORCE

由于 $Q_\pi(s_t,a_t)$ 表示智能体在状态 $s_t$ 时，执行动作 $a_t$ 后获得回报（奖励）的上限，因此可以让策略网络操纵智能体完整完成一次游戏，由此可得到
$s_1,a_1,r_1)、(s_2,a_2,r_2)、...、(s_n,a_n,r_n)$
一系列的轨迹，其中 $r_i$ 表示智能体在状态 $s_i$ 执行动作 $a_i$ 后获得的奖励。利用上述轨迹，可以计算 $t$ 时刻，智能体在状态为 $s_t$ 时，做出动作 $a_t$ 后得到的回报 $u_t$ 为
$u_t=\sum_{k=t}^n \gamma^{k-t}r_k=Q_\pi(s_t,a_t) \tag{1.3}$

策略梯度 $\nabla J(\theta)$ 可以表示成
$\begin{aligned} \nabla J(\theta)&=\sum_{t=1}^n\gamma^{t-1} E_{S_t,A_t}[Q_\pi(S_t,A_t)\nabla_{\theta}\ln\pi(A_t|S_t;\theta) ]\\ &\approx \sum_{t=1}^n\gamma^{t-1} Q_\pi(s_t,a_t)\nabla_{\theta}\ln\pi(a_t|s_t;\theta) \tag{1.4} \end{aligned}$
由此可得策略梯度为
$\nabla J(\theta)=\sum_{t=1}^n\gamma^{t-1}u_t\nabla_{\theta}\ln\pi(a_t|s_t;\theta)\tag{1.5}$

REINFORCE的训练流程

用策略网络控制智能体完成一整局游戏，得到一系列轨迹： $s_1,a_1,r_1)、(s_2,a_2,r_2)、...、(s_n,a_n,r_n)$
计算所有时刻的回报 $u_t=\sum_{k=t}^n \gamma^{k-t}r_k=Q_\pi(s_t,a_t)\tag{1.6}$
利用随机梯度上升法更新策略网络的参数 $\theta_{new}=\theta_{now}+\beta \sum_{t=1}^n \gamma^{t-1} u_t\nabla_{\theta}\ln\pi(a_t|s_t;\theta)$ 其中 $\theta_{now}$ 表示策略网络当前的参数， $\theta_{new}$ 表示更新后的策略网络参数， $\gamma$ 表示折扣率，为超参数。

策略学习方法：Actor-Critic方法

Actor-Critic方法利用神经网络近似动作价值函数 $Q_\pi(s_t,a_t)$ ，这个网络又被称为价值网络，记为 $q_\pi(s,a)$ 。其输入为状态 $s$ ，输出为每个动作的动作价值函数，使用价值学习中的SARSA策略训练。价值网络（Critic）负责对策略网络（Actor）做出的动作评分

Actor-Critic的训练流程

观测到当前的状态 $s_t$ ，将该状态输入到策略网络 $\pi(a|s_t;\theta)$ 中，得到智能体执行各个动作的概率。依据概率抽样其中一个动作 $a_t$ ，智能体执行该动作后得到新的状态 $s_{t+1}$ 和奖励 $r_t$ 。将状态 $s_{t+1}$ 输入到策略网络 $\pi(a|s_t)$ 中，依据输出概率抽样得到智能体执行的动作 $a_{t+1}$ 。
计算 $\hat q_t=q_\pi(s_t,a_t;w_{now})$ 、 $\hat q_{t+1}=q_\pi(s_{t+1},a_{t+1};w_{now})$
利用利用贝尔曼方程优化价值网络 $q (s, a; w)$ $w_{new}=w_{now}-\alpha [\hat q_t-(r_t+\hat q_{t+1})]\nabla_{w}q(s_t,a_t;w_{now})$
更新策略网络 $\theta_{new}=\theta_{now}+\beta \hat q_t \nabla_{\theta}\ln\pi(a_t|s_t;\theta)$

其中 $\alpha$ 、 $\beta$ 为学习率。由于使用贝尔曼方程优化价值网络，因此上述训练策略会导致价值网络出现高估，可以引入目标网络解决，具体查阅强化学习——价值学习中的DQN

随着训练的进行，价值网络对策略网络做出动作的评分会越来越高，这是因为策略学习的目标是最大化状态价值函数，依据式1.0可知，最大化状态价值函数将使得动作价值函数的取值越来越大，即价值网络读策略网络做出动作的评分越来越高。

带基线的策略学习方法

上述两个策略学习的方法存在训练难以收敛的问题。对于REINFORCE方法，不同轮训练采样到的轨迹不同，回报 $u_t$ 的取值方差大，导致策略梯度方差较大，模型难以收敛。对于Actor-Critic方法，价值网络的参数不断更新也将导致 $Q_\pi(S,A)$ 的取值方差大，导致策略梯度的方差较大，模型难以收敛。

基于上述考虑，带基线的策略学习方法引入了基线 $b$ ，此时策略梯度为

$\nabla J(\theta)=E_S[E_{A\sim \pi(.|S;\theta)}[(Q_\pi(S,A)-b)\nabla_{\theta}\ln\pi(A|S;\theta)]] \tag{1.7}$

其中 $b$ 即基线， $b$ 不依赖于动作A。值得一提的是，基线并不会影响策略梯度的取值，具体而言
$\begin{aligned} \nabla J(\theta)&=E_S[E_{A\sim \pi(.|S;\theta)}[(Q_\pi(S,A)-b)\nabla_{\theta}\ln\pi(A|S;\theta)]]\\ &=E_S[E_{A\sim \pi(.|S;\theta)}[Q_\pi(S,A)\nabla_{\theta}\ln\pi(A|S;\theta)]]-E_S[E_{A\sim \pi(.|S;\theta)}[b\nabla_{\theta}\ln\pi(A|S;\theta)]]\\ &=E_S[E_{A\sim \pi(.|S;\theta)}[Q_\pi(S,A)\nabla_{\theta}\ln\pi(A|S;\theta)]]-E_S[bE_{A\sim \pi(.|S;\theta)}\nabla_{\theta}\ln\pi(A|S;\theta)]\\ &=E_S[E_{A\sim \pi(.|S;\theta)}[Q_\pi(S,A)\nabla_{\theta}\ln\pi(A|S;\theta)]]- E_S[b\sum_A \pi(A|S;\theta)\nabla_{\theta}\ln\pi(A|S;\theta)]\\ &=E_S[E_{A\sim \pi(.|S;\theta)}[Q_\pi(S,A)\nabla_{\theta}\ln\pi(A|S;\theta)]]-E_S[b\sum_A \nabla_{\theta}\pi(A|S;\theta)]\\ &=E_S[E_{A\sim \pi(.|S;\theta)}[Q_\pi(S,A)\nabla_{\theta}\ln\pi(A|S;\theta)]]-E_S[b \nabla_{\theta}\sum_A[\pi(A|S;\theta)]]\\ &=E_S[E_{A\sim \pi(.|S;\theta)}[Q_\pi(S,A)\nabla_{\theta}\ln\pi(A|S;\theta)]]-E_S[b \nabla_{\theta}1]]\\ &=E_S[E_{A\sim \pi(.|S;\theta)}[Q_\pi(S,A)\nabla_{\theta}\ln\pi(A|S;\theta)]] \end{aligned}$
设引入基线后，利用蒙特卡洛近似可得一次参数更新的梯度为
$g_b(S,A)=(Q_\pi(S,A)-b)\nabla_{\theta}\ln\pi(A|S;\theta)$
上式的期望即为策略梯度，则梯度的方差为
$var=E_{S,A}[||g_b(S,A)-\nabla_{\theta}J(\theta)||^2]\tag{1.8}$
当 $b$ 的取值近似于 $Q_\pi(S,A)$ 关于动作的均值时（状态价值函数），式1.8的方差较小(比未引入基线的梯度方差小)，有助于加速模型收敛，因此 $b$ 的取值为
$b=V_\pi(S)\tag{1.9}$

带基线的REINFORCE方法

带基线的REINFORCE方法利用一个神经网络 $V_\pi(S;\theta_v)$ 近似状态函数 $V_\pi(S)$ ，将MSE作为损失函数。带基线的REINFORCE方法的训练流程为

用策略网络控制智能体完成一整局游戏，得到一系列轨迹：
$s_1,a_1,r_1)、(s_2,a_2,r_2)、...、(s_n,a_n,r_n)$
计算所有时刻的回报
$u_t=\sum_{k=t}^n \gamma^{k-t}r_k=Q_\pi(s_t,a_t)\tag{1.6}$
计算
$\hat v_t=V_\pi(s_t;\theta_v) \ \ \ \ \ t=1,2,3...n$
计算MSE损失：
$L(\theta_v)=\frac{1}{2n}\sum_{i=1}^{n}[V_\pi(s_t;\theta_v)-u_t]^2$
反向传播更新神经网络 $V_\pi(S;\theta_v)$
利用随机梯度上升法更新策略网络的参数 $\theta_{new}=\theta_{now}+\beta \sum_{t=1}^n \gamma^{t-1} (u_t-\hat v_t)\nabla_{\theta}\ln\pi(a_t|s_t;\theta)$ 其中 $\theta_{now}$ 表示策略网络当前的参数， $\theta_{new}$ 表示更新后的策略网络参数， $\gamma$ 表示折扣率，为超参数。

带基线与不带基线的REINFORCE方法的收敛速度比较可以看下图（源自有baseline的REINFORCE算法），由于梯度方差更小（梯度更为稳定），带基线情况下模型的收敛速度明显更快。
在这里插入图片描述

带基线的AdvantageActor-Critic方法（A2C）

AdvantageActor-Critic使用价值网络 $q_\pi(s,a;w)$ 拟合动作价值函数，而A2C使用价值网络 $V_\pi(s;w)$ 拟合状态价值函数 $V_\pi(s)$ 。具体而言，对贝尔曼方程进行变化可得：

$\begin{aligned} Q_\pi(S_t,A_t)&=E_{S_{t+1},A_{t+1}}[R_t+\gamma Q_\pi(S_{t+1},A_{t+1})]\\ &=E_{S_{t+1}}[R_t+\gamma V_\pi(S_{t+1})]\tag{1.7} \end{aligned}$

式1.7对动作 $A_t$ 求期望，则有
$\begin{aligned} V_\pi(S_t)&=E_{S_{t+1}}[R_t+\gamma V_\pi(S_{t+1})] \end{aligned}$

利用上式即可训练价值网络 $V_\pi(s;w)$ 拟合状态价值函数 $V_\pi(s)$ （类似于SARSA）。使用蒙特卡洛近似后，带基线的策略梯度为：
$\nabla J(\theta)\approx[(r_t+\gamma V_\pi(s_{t+1}))-V_\pi(s_t)]\nabla_{\theta}\ln\pi(a_t|s_t;\theta)]]$

基于上述分析，A2C方法的训练流程为

观测到当前的状态 $s_t$ ，将该状态输入到策略网络 $\pi(a|s_t;\theta)$ 中，得到智能体执行各个动作的概率。依据概率抽样其中一个动作 $a_t$ ，智能体执行该动作后得到新的状态 $s_{t+1}$ 和奖励 $r_t$ 。
计算 $\hat v_t=V_\pi(s_t;w_{now})$ 、 $\hat v_{t+1}=V_\pi(s_{t+1};w_{now})$
利用利用贝尔曼方程优化价值网络 $q (s, a; w)$ $w_{new}=w_{now}-\alpha [\hat v_t-(r_t+\hat v_{t+1})]\nabla_{w}q(s_t,a_t;w_{now})$
更新策略网络 $\theta_{new}=\theta_{now}+\beta [(r_t+\hat v_{t+1})-\hat v_t] \nabla_{\theta}\ln\pi(a_t|s_t;\theta)$