Policy-based RL小结(Policy Gradient ； Natural policy gradient ；TRPO；ACKTR；PPO )

最新推荐文章于 2024-02-05 15:48:21 发布

菜且凶残_2017

最新推荐文章于 2024-02-05 15:48:21 发布

阅读量882

点赞数 1

分类专栏：强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/qq_38800089/article/details/118173631

版权

强化学习专栏收录该内容

16 篇文章 7 订阅

订阅专栏

Policy-based RL

前言

此笔记根据周老师的强化学习课程总结而成

周老师的《强化学习纲要》
https://github.com/zhoubolei/introRL

$\nabla_{\theta} J(\theta)=\nabla_{\theta} \mathbb{E}_{\pi_{\theta}}[R]$

1. 预备知识

1.1 策略类型

确定性策略和随机策略

1.2 策略优化的目标函数

1.2.1 可结束的环境的目标函数

用开始的第一个状态的价值来衡量策略的质量

$J_{1}(\theta)=V^{\pi_{\theta}}\left(s_{1}\right)=\mathbb{E}_{\pi_{\theta}}\left[v_{1}\right]$

1.2.3 连续动作环境的目标函数

取平均价值函数V

$J_{a v V}(\theta)=\sum_{s} d^{\pi_{\theta}}(s) V^{\pi_{\theta}}(s)$

取每一步的平均回报R

$J_{a v R}(\theta)=\sum_{s} d^{\pi_{\theta}}(s) \sum_{a} \pi_{\theta}(s, a) R(s, a)$

where $d^{\pi} \theta$ is stationary distribution of Markov chain for $\pi_{\theta}$

1.2.4 实际的目标函数的定义

利用采样的思想

$\begin{aligned} J(\theta) &=\mathbb{E}_{\tau \sim \pi_{\theta}}\left[\sum_{t} R\left(s_{t}^{\tau}, a_{t}^{\tau}\right)\right] \\ & \approx \frac{1}{m} \sum_{m} \sum_{t} R\left(s_{t}^{m}, a_{t}^{m}\right) \end{aligned}$

策略优化的目标：

$\theta^{*}=\underset{\theta}{\arg \max }\mathbb{E}_{\tau \sim \pi_{\theta}}\left[\sum_{t} R\left(s_{t}^{\tau}, a_{t}^{\tau}\right)\right]$

1.3 策略的核函数

假设策略可微则

$\begin{aligned} \nabla_{\theta} \pi_{\theta}(s, a) &=\pi_{\theta}(s, a) \frac{\nabla_{\theta} \pi_{\theta}(s, a)}{\pi_{\theta}(s, a)} \\ &=\pi_{\theta}(s, a) \nabla_{\theta} \log \pi_{\theta}(s, a) \end{aligned}$

其中策略的核函数： $\nabla_{\theta} \log \pi_{\theta}(s, a)$

1.4 策略的类型

1.4.1 Softmax Policy

$\pi_{\theta}(s, a)=\frac{\exp ^{\phi(s, a)^{T} \theta}}{\sum_{a^{\prime}} \exp ^{\phi\left(s, a^{\prime}\right)^{T} \theta}}$

核函数： $\nabla_{\theta} \log \pi_{\theta}(s, a)=\phi(s, a)-\mathbb{E}_{\pi_{\theta}}[\phi(s, .)]$

其中 $\phi(s, a)$ 是状态-动作对的特征，动作的权重用特征的线性组合表示 $\phi(s, a)^{T} \theta$

1.4.2 高斯分布

常用于连续动作的环境

$\pi_{\theta}(s, a)=\frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{1}{2}\left(\frac{a-\phi(s)^{T} \theta}{\sigma}\right)^{2}}$

核函数： $\nabla_{\theta} \log \pi_{\theta}(s, a)=\frac{(a-\mu(s)) \phi(s)}{\sigma^{2}}$

其中 $\phi(s)$ 是状态的特征, 均值是状态特征的组合 $\mu(s)=\phi(s)^{T} \theta$ ，方差可以是固定的也可以是参数化的

2. 正题：策略梯度RL

2.1 问题表征

利用1.2.4中的思想，即用采样的方法来表征目标函数 $J(\theta)=\mathbb{E}_{\pi_{\theta}}\left[\sum_{t=0}^{T-1} R\left(s_{t}, a_{t}\right)\right]=\sum_{\tau} P(\tau ; \theta) R(\tau)$

$\tau=\left(s_{0}, a_{0}, r_{1}, \ldots s_{T-1}, a_{T-1}, r_{T}, s_{T}\right) \sim\left(\pi_{\theta}, P\left(s_{t+1} \mid s_{t}, a_{t}\right)\right)$ 用 $\pi_\theta$ 采样一个episode的轨迹。

$P(\tau ; \theta)=\mu\left(s_{0}\right) \prod_{t=0}^{T-1} \pi_{\theta}\left(a_{t} \mid s_{t}\right) p\left(s_{t+1} \mid s_{t}, a_{t}\right)$ 一条采样轨迹的概率

$R(\tau)=\sum_{t=0}^{T-1} R\left(s_{t}, a_{t}\right)$ 一条轨迹上所有奖励的和

则我们的目标就是求

$\theta^{*}=\underset{\theta}{\arg \max } J(\theta)=\underset{\theta}{\arg \max } \sum_{\tau} P(\tau ; \theta) R(\tau)$

2.2 MC梯度的方法

将梯度进行类似1.3中的处理

$\nabla_{\theta} J(\theta)=\sum_{\tau} P(\tau ; \theta) R(\tau) \nabla_{\theta} \log P(\tau ; \theta)=\mathbb{E}_{\pi_{\theta}}(R(\tau) \nabla_{\theta} \log P(\tau; \theta))=\mathbb{E}_{\pi_{\theta}}\left[\left(\sum_{t=0}^{T-1} r_{t}\right)\left(\sum_{t=0}^{T-1} \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)\right)\right]$

则在实际中用采样的方法对其进行近似

$\nabla_{\theta} J(\theta) \approx \frac{1}{m} \sum_{i=1}^{m} R\left(\tau_{i}\right) \nabla_{\theta} \log P\left(\tau_{i} ; \theta\right)$

对 $\nabla_{\theta} \log P(\tau ; \theta)$ 进行分解， $\nabla_{\theta} \log P(\tau ; \theta)=\sum_{t=0}^{T-1} \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)$

则目标函数的梯度变成：

$\nabla_{\theta} J(\theta) \approx \frac{1}{m} \sum_{i=1}^{m} R\left(\tau_{i}\right) \sum_{t=0}^{T-1} \nabla_{\theta} \log\pi_\theta(a_{t}^{i}|s_{t}^{i})$

由上式可以看到，目标函数的梯度的计算用不到环境模型 $P\left(s_{t+1} \mid s_{t}, a_{t}\right)$

3. 改善策略梯度

基于采样的策略梯度是无偏有噪声的，下面就是为了消除噪声而进行的操作。

3.1 考虑时序因果关系

参考2.1 中的策略梯度函数,此策略梯度函数表示t时刻采样策略会影响t之前的回报r，其中的因果性就不合理，会引起较大的方差 $\nabla_{\theta} J(\theta)=\mathbb{E}_{\pi_{\theta}}\left[\left(\sum_{t=0}^{T-1} r_{t}\right)\left(\sum_{t=0}^{T-1} \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)\right)\right]$

现在为了去除因果性，考虑另一种表达方式

首先对于单个reward来说策略梯度为

$\nabla_{\theta} \mathbb{E}_{\pi_{\theta}}\left[r_{t^{\prime}}\right]=\mathbb{E}_{\pi_{\theta}}\left[r_{t^{\prime}} \sum_{t=0}^{t^{\prime}} \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)\right]$

然后summing整个reward $\nabla_{\theta} J(\theta)=\nabla_{\theta} \mathbb{E}_{\pi_{\theta}}[R]=\nabla_{\theta} \mathbb{E}_{\pi_{\theta}}[\sum_{t^{\prime}=0}^{T-1}r_{t^{\prime}}]=\mathbb{E}_{\tau}\left[\sum_{t^{\prime}=0}^{T-1} r_{t^{\prime}} \sum_{t=0}^{t^{\prime}} \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)\right]=\mathbb{E}_{\tau}\left[\sum_{t=0}^{T-1} G_{t} \cdot \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)\right]$

最后得到 $\nabla_{\theta} J(\theta)=\mathbb{E}_{\tau}\left[\sum_{t=0}^{T-1} G_{t} \cdot \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)\right]$

根据最后得到的式子，采用MC采样的方法得到策略梯度的估计值

$\nabla_{\theta} J(\theta)\approx \frac{1}{m} \sum_{i=1}^{m} \sum_{t=0}^{T-1} G_{t}^{(i)} \cdot \nabla_{\theta} \log \pi_{\theta}\left(a_{t}^{i} \mid s_{t}^{i}\right)$

REINFORCE算法就是根据这一原理来进行设计的

3.2 采用Baseline

考虑3.1中得到的策略梯度函数，虽然去除了因果性，但是Gt也是采样出来的，它依然会有好，有坏，方差就会比较大。

$\nabla_{\theta} J(\theta)=\mathbb{E}_{\tau}\left[\sum_{t=0}^{T-1} G_{t} \cdot \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)\right]$

为了消除这个采样引起的方差，我们加入一个baseline，可以证明下面这个策略梯度和上面3.1中策略梯度是完全相同的，也是一个无偏估计，但是方差较小：

$\nabla_{\theta} J(\theta)=\mathbb{E}_{\tau}\left[\sum_{t=0}^{T-1}\left(G_{t}-b\left(s_{t}\right)\right) \cdot \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)\right]$

其中advantage estimate= $\left(G_{t}-b\left(s_{t}\right)\right)$

其中baseline可以用回报的期望表示 $b\left(s_{t}\right)=\mathbb{E}\left[r_{t}+r_{t+1}+\ldots+r_{T-1}\right]$ 也可以用带参数的函数： $b_{\mathrm{w}}\left(s_{t}\right)$

Vanilla Policy Gradient Algorithm with Baseline

3.3 采用critic

考虑3.1中得到的策略梯度函数，虽然去除了因果性，但是Gt也是采样出来的，它依然会有好，有坏，方差就会比较大。这个方差的来源是因为Gt是Q(at|st)的无偏有噪声估计

$q_{\pi}(s, a) \doteq \mathbb{E}_{\pi}\left[G_{t} \mid S_{t}=s, A_{t}=a\right]=\mathbb{E}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^{k} R_{t+k+1} \mid S_{t}=s, A_{t}=a\right]$

可以看到对Gt取期望等于q，说明无偏差，但是毕竟是采样出来的所以noise比较大

$\nabla_{\theta} J(\theta)=\mathbb{E}_{\tau}\left[\sum_{t=0}^{T-1} G_{t} \cdot \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)\right]$

为了消除这个采样引起的方差，我们直接用一个参数化的Q来代替Gt，后续不断地对其进行优化改进：

$\nabla_{\theta} J(\theta)=\mathbb{E}_{\pi_{\theta}}\left[\sum_{t=0}^{T-1} Q_{w}\left(s_{t}, a_{t}\right) \cdot \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)\right]$

其中 $Q_{\mathbf{w}}(s, a) \approx Q^{\pi_{\theta}}(s, a)$ ，被称为critic

最后观察上面这个等式 $\nabla_{\theta} J(\theta)=\mathbb{E}_{\pi_{\theta}}\left[\sum_{t=0}^{T-1} Q_{w}\left(s_{t}, a_{t}\right) \cdot \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)\right]$

其中 $\pi_{\theta}\left(a_{t} \mid s_{t}\right)$ 是Actor， $Q_{\mathrm{w}}\left(s_{t}, a_{t}\right)$ 是Critic。这个算法也叫做Actor-Critic Policy Gradient

一个简单的QAC算法

使用一个线性逼近函数来近似cirtic： $Q_{\mathbf{w}}(s, a)=\psi(s, a)^{T} \mathbf{w}$

通过TD(0)的方式来更新w，用策略梯度的方法来更新 $\theta$ （在lecture4有讲）
在这里插入图片描述
采用神经网络的方式更新

3.4 采用Advantage function

对于3.3中的Q依然存在方差，接下来继续减小方差，因为V是Q的期望值，所以我们用Q-V来作为advantage function：

$A^{\pi, \gamma}(s, a)=Q^{\pi, \gamma}(s, a)-V^{\pi, \gamma}(s) $

$\begin{aligned} V^{\pi, \gamma}(s) &=\mathbb{E}_{\pi}\left[r_{1}+\gamma r_{2}+\ldots \mid s_{1}=s\right] \\ &=\mathbb{E}_{a \sim \pi}\left[Q^{\pi, \gamma}(s, a)\right] \end{aligned}$

$Q^{\pi, \gamma}(s, a)=\mathbb{E}_{\pi}\left[r_{1}+\gamma r_{2}+\ldots \mid s_{1}=s, a_{1}=a\right]$

从而策略梯度变成：

$\nabla_{\theta} J(\theta)=\mathbb{E}_{\pi_{\theta}}\left[\nabla_{\theta} \log \pi_{\theta}(s, a) A^{\pi, \gamma}(s, a)\right]$

$\begin{aligned} V_{\mathbf{v}}(s) & \approx V^{\pi}(s) \\ Q_{\mathbf{w}}(s, a) & \approx Q^{\pi}(s, a) \end{aligned}$

V和Q参数的更新可以用TDlearning 或者 MC的方法

3.5 TD Actor-Critic

对于3.4中的策略梯度需要估计Q和V两个函数的参数，计算量比较大

$\nabla_{\theta} J(\theta)=\mathbb{E}_{\pi_{\theta}}\left[\nabla_{\theta} \log \pi_{\theta}(s, a) A^{\pi, \gamma}(s, a)\right]$

$A^{\pi, \gamma}(s, a)=Q^{\pi, \gamma}(s, a)-V^{\pi, \gamma}(s)$

现在通过一个变换，可以用只含有V
$\begin{aligned} \mathbb{E}_{\pi_{\theta}}\left[\delta^{\pi_{\theta}} \mid s, a\right] &=\mathbb{E}_{\pi_{\theta}}\left[r+\gamma V^{\pi_{\theta}}\left(s^{\prime}\right) \mid s, a\right]-V^{\pi_{\theta}}(s) \\ &=Q^{\pi_{\theta}}(s, a)-V^{\pi_{\theta}}(s) \\ &=A^{\pi_{\theta}}(s, a) \\ \delta^{\pi_{\theta}}=& r(s, a)+\gamma V^{\pi_{\theta}}\left(s^{\prime}\right)-V^{\pi_{\theta}}(s) \end{aligned}$
可以采用MC和TD的方式来对V进行估计
在这里插入图片描述
总结：策略梯度的各种形式如下

4. 策略梯度高级算法

Policy Gradient $\rightarrow$ Natural policy gradient $\mathrm{TRPO} \rightarrow \mathrm{ACKTR} \rightarrow \mathrm{PPO}$

策略梯度的问题

1.采样比较少，效率比较低

2.训练用的数据间的相关度较高，训练过程可能会变得越来越糟，训练过程不稳定（比如采样到比较坏的数据，得到一个比较坏的策略。。。）

解决第一个问题：使用off-policy的方法，Importance sampling（TRPO）

解决第二个问题：增加Trust region（TRPO）和 Natural policy gradient

Natural policy gradient(KL-divergence)

这个方法是解决训练问题不稳定的情况。

基本的策略梯度方法是一个这样的优化问题 $\Delta\theta^{*}=\arg \max J(\theta+\Delta\theta)$ ，在基本的策略梯度中 $\Delta\theta^{*}=\nabla_{\theta} J(\theta)$ 。但是这样更新策略的参数有个问题，就是 $\theta$ 参数的变化对于策略的影响是未知的，可能会把一个比较不错的old策略带跑偏，容易产生震荡，也就是问题2。

解决问题2的方法，用KL-divergence对odl policy和new policy之间的差别进行约束

$\Delta\theta^{*}=\arg \max J(\theta+\Delta\theta)$ , s.t. $L\left(\pi_{\theta} \| \pi_{\theta+d}\right)=c$

对其进行Lagrangian形式的处理，得到新的优化问题：

$\begin{aligned} \Delta\theta^{*} &=\underset{\Delta\theta}{\arg \max } J(\theta+\Delta\theta)-\lambda\left(K L\left(\pi_{\theta} \| \pi_{\theta+\Delta\theta}\right)-c\right) \\ & \approx \underset{\Delta\theta}{\arg \max } J(\theta)+\nabla_{\theta} J(\theta)^{T} \Delta\theta-\frac{1}{2} \lambda \Delta\theta^{T} F \Delta\theta+\lambda c \end{aligned}$

对上面的优化问题进行梯度求导得

natural policy gradient: $\Delta\theta^{*}=\frac{1}{\lambda} F^{-1} \nabla_{\theta} J(\theta)$

新的参数更新公式： $\theta_{t+1}=\theta_{t}+\alpha F^{-1} \nabla_{\theta} J(\theta)$

以前的参数更新公式： $\theta_{t+1}=\theta_{t}+\alpha \nabla_{\theta} J(\theta)$

对比这两个公式，这里新增加来一个F的逆，F是Fisher information matrix $F=E_{\pi_{\theta}(s, a)}\left[\nabla \log \pi_{\theta}(s, a) \nabla \log \pi_{\theta}(s, a)^{T}\right]$ ，F其实是策略的曲率，新的参数更新公式相较于以前的相当于把策略的曲率提除掉了。

importance sampling(IS)

为了改进第一个问题，我们采用得到的old policy对a进行采样，这样可以利用很多的样本。

$J(\theta)=\mathbb{E}_{a \sim \pi_{\theta}}[r(s, a)]=\mathbb{E}_{a \sim \hat{\pi}}\left[\frac{\pi_{\theta}(s, a)}{\hat{\pi}(s, a)} r(s, a)\right]$

从而优化问题变成

$\theta=\underset{\theta}{\arg \max } J_{\theta_{\text {old }}}(\theta)=\underset{\theta}{\arg \max } \mathbb{E}_{t}\left[\frac{\pi_{\theta}\left(a_{t} \mid s_{t}\right)}{\pi_{\theta_{\text {old }}}\left(a_{t} \mid s_{t}\right)} R_{t}\right]$

TRPO=IS+KL-divergence

TRPO的优化问题

$J_{\theta_{\text {old }}}(\theta)=\mathbb{E}_{t}\left[\frac{\pi_{\theta}\left(a_{t} \mid s_{t}\right)}{\pi_{\theta_{\text {old }}}\left(a_{t} \mid s_{t}\right)} R_{t}\right]$
subject to $L\left(\pi_{\theta_{\text {old }}}\left(. \mid s_{t}\right) \| \pi_{\theta}\left(. \mid s_{t}\right)\right) \leq \delta$

对上面两项泰勒展开后，经过推导得

$\begin{aligned} J_{\theta_{old}}(\theta) & \approx g^{T}\left(\theta-\theta_{old}\right) \\ K L\left(\theta_{old} \| \theta\right) & \approx \frac{1}{2}\left(\theta-\theta_{old}\right)^{F} T\left(\theta-\theta_{old}\right) \end{aligned}$

$g=\nabla_{\theta} J_{\theta_{old}}(\theta)$ and $T=\nabla_{\theta}^{2} K L\left(\theta_{old}|| \theta\right)$

然后优化形式就变成：

$\theta=\underset{\theta}{\arg \max } g^{T}\left(\theta-\theta_{old}\right)$ s.t. $\frac{1}{2}\left(\theta-\theta_{old}\right)^{T} T\left(\theta-\theta_{old}\right) \leq \delta$

对上面的优化形式进行二次优化求解： $\theta=\theta_{old}+\sqrt{\frac{2 \delta}{g^{T} H^{-1} g}} T^{-1} g$

natural policy gradient: $\sqrt{\frac{2 \delta}{g^{T} T^{-1} g}} T^{-1} g$

TRPO算法小结：

natural policy gradient:就是将KL-divergence考虑在内的梯度更新公式

ACKTR

用一个更简单的方法计算FIsher information matrix

PPO=simple TRPO

PPO是一种简化的TRPO实现形式，PPO的优化计算方式不用计算TRPO中的F二阶矩阵，比较容易实现计算也快很多，而且包括来TRPO中的IS和KL-divergence的特性。

对于TRPO中的loss function

maximize $_{\theta} \mathbb{E}_{t}\left[\frac{\pi_{\theta}\left(a_{t} \mid s_{t}\right)}{\pi_{\theta_{\text {old }}}\left(a_{t} \mid s_{t}\right)} A_{t}\right]$
subject to $\mathbb{E}_{t}\left[K L\left[\pi_{\theta_{\text {old }}}\left(. \mid s_{t}\right), \pi_{\theta}\left(. \mid s_{t}\right)\right]\right] \leq \delta$

PPO不用解析的去求解，而是将其转化成拉格朗日的形式，也就是还是用一阶的SGD来对 $\theta$ 进行更新：

maximize $_{\theta} \mathbb{E}_{t}\left[\frac{\pi_{\theta}\left(a_{t} \mid s_{t}\right)}{\pi_{\theta_{\text {old }}}\left(a_{t} \mid s_{t}\right)} A_{t}\right]-\beta \mathbb{E}_{t}\left[K L\left[\pi_{\theta_{\text {old }}}\left(. \mid s_{t}\right), \pi_{\theta}\left(. \mid s_{t}\right)\right]\right]$

PPO with Adaptive KL Penalty

动态的调整 $\beta$

在这里插入图片描述

PPO with clipping

再看原来的TRPO中的优化形式

clip之后，形式变成：

maximize $_{\theta} \mathbb{E}_{t}\left[\min \left(\frac{\pi_{\theta}\left(a_{t} \mid s_{t}\right)}{\pi_{\theta_{\text {old }}}\left(a_{t} \mid s_{t}\right)} {A}_{t}, \operatorname{clip}\left(\frac{\pi_{\theta}\left(a_{t} \mid s_{t}\right)}{\pi_{\theta_{\text {old }}}\left(a_{t} \mid s_{t}\right)}, 1-\epsilon, 1+\epsilon\right) A_{t}\right)\right]$
subject to $\mathbb{E}_{t}\left[K L\left[\pi_{\theta_{\text {old }}}\left(. \mid s_{t}\right), \pi_{\theta}\left(. \mid s_{t}\right)\right]\right] \leq \delta$