*、Policy Gradient和PPO(PPO2)

Dragon Fly

已于 2022-05-31 11:38:43 修改

阅读量347

点赞数 1

分类专栏：深度学习文章标签：机器学习深度学习算法

于 2022-05-31 11:37:08 首次发布

本文链接：https://blog.csdn.net/weixin_43160744/article/details/125033154

版权

深度学习专栏收录该内容

17 篇文章 1 订阅

订阅专栏

文章目录

1、基本组成部分
2、policy gradient执行过程
3、执行policy gradient的Tips
- 3.1 增加一个baseline
- 3.2 分配合理的reward权重
4、Proximal Policy Optimization
- 4.1 On policy 和 Off Policy
- - 4.1.1 Importance Sampling
  - 4.1.2 Off Policy下的PPO梯度计算
THE END

1、基本组成部分

$\qquad$ Policy Gradient由3部分组成，分别是actor，environment和reward function，其中actor是可以控制的，但是environment和reward function是在学习之前事先给定的，不能控制。
$\qquad$ 不同于Q-Learning基于值函数来决定下一个策略，policy gradient通过一个神经网络来决定下一个策略 $\pi$ ，神经网络的输入是特征向量或者矩阵，表示当前状态和环境，如在游戏中为游戏画面(图像pixel)；神经网络的输出为：所有可选动作的概率分布。根据输出的概率来选择最优的动作 $\pi$ 进行执行。执行完选定的动作之后，会产生一个执行动作之后的收益 $r$ 。【这里区分一下Policy Gradient和DQN：在DQN中，神经网络的作用是计算Bellman方程的后效收益，最终还是基于值函数来选择下一个策略，不同于policy gradient直接输出选择所有策略的一个概率。】

2、policy gradient执行过程

$\qquad$ 从开始输入状态 $s_1$ ，选择执行动作 $a_1$ ，得到收益 $r_1$ ，依次类推直到 $T$ 个时间步之后到达结束状态，这么一个过程叫做一个episode，一个episode的总收益表示为： $R=\sum_{t=1}^{T}r_t$ ，actor的目标是为了最大化总收益 $R$ 。
在这里插入图片描述
$\qquad$ 令 $\tau = \{ s_1,a_1,s_2,a_2,...,s_T,a_T\}$ 表示一个trajectory，即所有的状态的动作的串联concatanation。从而，在给定参数 $\theta$ 条件下，可以计算一个trajectory出现的概率： $p_{\theta}(\tau)=p(s_1)p_{\theta}(a_1|s_1)p(s_2|s_1,a_1)p_{\theta}(a_2|s_2)p(s_3|s_2,a_2)...\\ =p(s_1)\prod_{t=1}^Tp_{\theta}(a_t|s_t)p(s_{t+1}|s_t,a_t)$
$\qquad$ 上式中， $p(s_{t+1}|s_t,a_t)$ 属于环境控制的部分，某些情况下可能是确定的，即给定一个状态动作，下一个状态时确定的；但某些情况下，如游戏情境中，通常是不确定的。
$\qquad$ 上述介绍了一个episode对应的收益 $R$ ，即每一个trajectory对应一个收益 $R$ ，而由于在动作选择，甚至状态更新的时候都是有随机性的，所以更可靠，更有代表性的收益值是期望收益值，如下所示： $\bar{R}_{\theta}=\sum_{\tau}R(\tau)p_{\theta}(\tau)\\ =E_{\tau\sim p_{\theta}(\tau)}[R(\tau)]$
$\qquad$ 即每一个trajectory出现的概率乘上它的收益，即为所有trajectory的期望收益值。
$\qquad$ 若想对参数 $\theta$ 进行训练，需要求期望收益 $\bar{R}_{\theta}$ 的导数 $\nabla\bar{R}_{\theta}$ ，因为收益值 $R(\tau)$ 与参数 $\theta$ 无关，同时有公式 $\nabla f(x)=f(x)\nabla log(f(x))$ 成立，所以推导过程如下所示：
$\nabla\bar{R}_{\theta}=\sum_{\tau}R(\tau)\nabla p_{\theta}(\tau)= \sum_{\tau}R(\tau)p_{\theta}(\tau) \frac{\nabla p_{\theta}(\tau)}{ p_{\theta}(\tau)}=\\ \sum_{\tau}R(\tau) p_{\theta}(\tau)\nabla log(p_{\theta}(\tau))=E_{\tau\sim p_{\theta}(\tau)}[R(\tau) \nabla log(p_{\theta}(\tau))] =\\ \frac{1}{N}\sum_{n=1}^{N}R(\tau^n) \nabla log(p_{\theta}(\tau^n))=\frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T_n}R(\tau^n) \nabla log(p_{\theta}(a_t^n|s_t^n))$
$\qquad$ policy gradient数据集获取通过和环境进行交互来获取在一次episode下执行一系列动作之后的收益，将训练数据集中的trajectory和reward进行梯度上升(gradient ascent，因为是最大化收益)参数训练，之后更新模型，过程示意如下图所示：
在这里插入图片描述

3、执行policy gradient的Tips

3.1 增加一个baseline

$\qquad$ 增加baseline的缘由是：由于在进行模型训练时，只是对sample的部分样本数据进行了参数学习，所以某些动作可能不能被sample到；同时在很多情况下，收益值没有负值的情况存在，这就会导致所有sample到的动作被选择的概率均一直上升。为了克服上述问题，在计算期望收益值的梯度的时候，在每一个sample的期望收益之后都减去一个baseline系数，这个系数可以取值为： $b=E[R(\tau)]$ ，添加baseline的policy gradient的计算方法如下所示：
$\nabla\bar{R}_{\theta}=\frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T_n}(R(\tau^n)-b)\nabla log(p_{\theta}(a_t^n|s_t^n))$
$\qquad$ 添加baseline之后，导致收益值项 $R(\tau^n)-b$ 有正有负，从而次优的动作被选择到的概率就会减小。

3.2 分配合理的reward权重

$\qquad$ 上述在计算梯度的时候还有一个问题，就是在一个trajectory中的所有状态动作对，他们的权重系数项(即 $R(\tau^n)-b$ )都相同，但这样做是不公平的，因为一个trajectory中的不同状态动作对可能有的好，有的差。若在sample的次数够多时，上述问题其他可以被解决，但是通常在训练模型时，sample的次数都是有限的，所以为了克服上述问题，在计算权重系数项，即reward项时，只考虑当前状态动作对之后的所有reward的累和，而不是整个trajectory所有reward的累和。示意图如下所示：
在这里插入图片描述
$\qquad$ 所以上述添加了baseline的梯度计算式可以进一步改进为：
$\nabla\bar{R}_{\theta}=\frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T_n}(\sum_{t'=t}^{T_n}r_{t'}^n-b)\nabla log(p_{\theta}(a_t^n|s_t^n))$
$\qquad$ 进一步改进上式，可以将未来的reward再添加一个折减系数 $\gamma<1$ ，说明当前的决策对于未来的影响随着时间的加长会逐渐减弱：
$\nabla\bar{R}_{\theta}=\frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T_n}(\sum_{t'=t}^{T_n}\gamma ^{t'-t}r_{t'}^n-b)\nabla log(p_{\theta}(a_t^n|s_t^n))$
$\qquad$ 令 $A^{\theta}(s_t,a_t)=\sum_{t'=t}^{T_n}\gamma ^{t'-t}r_{t'}^n-b$ 表示Advantage Function，其表示的意思是在状态 $s_t$ 下，采取动作 $a_t$ 有多好，他可以由一个 $\ network$ 来进行估计。

4、Proximal Policy Optimization

4.1 On policy 和 Off Policy

$\qquad$ On Policy下，用于学习的agent和与环境进行互动的agent是同一个agent，即agent一遍和环境进行互动，一边进行学习；Off Policy下，用于学习的agent和与环境进行互动的agent不是同一个agent，即另外一个agent通过观察其他agent与环境的互动进行学习。
$\qquad$ 由On Policy到Off Policy的原因在于：根据梯度的计算公式：
$\bar{R}_{\theta}=\sum_{\tau}R(\tau)p_{\theta}(\tau)\\ =E_{\tau\sim p_{\theta}(\tau)}[R(\tau)]$
$\qquad$ 在上述On Policy学习时，每一次更新参数 $\theta$ 之后，每一个trajectory的概率分布 $\tau\sim p_{\theta}(\tau)$ 就会发生改变，所以训练数据需要重新使用新的 $\theta$ 进行sample生成，这样就会浪费大量的时间在sample数据上面。为了节省数据sample的效率，同时提高数据的使用效率，采用一个额外的参数 $\theta'$ ，使用 $\theta'$ 进行sample数据来训练 $\theta$ ，因为 $\theta'$ 在一定训练次数下是固定的，所以可以多次使用 $\theta'$ sample的数据。

4.1.1 Importance Sampling

$\qquad$ Importance Sampling: 根据大数定理，可以知道下式成立：
$E_{x\sim p}[f(x)]=\frac{1}{N}\sum_{i=1}^{N}f(x^i)$
$\qquad$ 即在数据满足独立同分布的条件下，若 $x$ 服从 $p$ 分布，在样本数量 $N$ 足够大的条件下， $f (x)$ 的数学期望近似等于 $\frac{1}{N}\sum_{i=1}^{N}f(x^i)$ 。若现在不能从 $p$ 分布下取样本，只能从另外一个 $q$ 分布下取样本，则可以对上式进行下述改进：
$E_{x\sim p}[f(x)]=\int{f(x)p(x)dx}=\int f(x)\frac{p(x)}{q(x)}q(x)dx=E_{x\sim q}[f(x)\frac{p(x)}{q(x)}]$
$\qquad$ 即在 $q$ 分布下取样的数学期望相对于在 $p$ 分布下的属性期望，需要乘以一个权重系数 $\frac{p(x)}{q(x)}$ 。
$\qquad$ 由上述推导可以知道，可以使用某个分布 $q$ 来代替原始分布 $p$ ，在sample样本数量足够多的情况下，二者的属性期望通过上式近似恒等。但是，方差 $Var_{x\sim p}[f(x)]$ 和 $Var_{x\sim q}[f(x)\frac{p(x)}{q(x)}]$ 通过推导可以得出，在分布 $p$ 和 $q$ 的差别很大时，方差差别很大。下图直观表达了Importance Sampling的缺陷：
在这里插入图片描述

4.1.2 Off Policy下的PPO梯度计算

$\qquad$ 根据Importance Sampling的规则，通过 $\theta'$ 来sample数据，通过这些sample的数据来训练 $\theta$ ，期望收益关于参数 $\theta$ 的导数如下所示：
$\nabla\bar{R}_{\theta}=E_{\tau\sim p_{\theta'}(\tau)}[R(\tau)\nabla logp_{\theta}(\tau)\frac{p_{\theta}(\tau)}{p_{\theta'}(\tau)}]$
$\qquad$ 即使用 $\theta'$ sample出一组数据，使用这组数据对 $\theta$ 进行多次训练，在 $\theta$ 训练时，梯度计算时要采用上式进行。
$\qquad$ 将3.1和3.2中的改进措施应用在off Policy中，梯度计算方式如下所示：
$\nabla\bar{R}_{\theta}=E_{(s_t,a_t)\sim\pi_{\theta}} [A^{\theta}(s_t,a_t) \nabla logp_{\theta}(a_t|s_t)]\\ J^{\theta'}(\theta)=E_{(s_t,a_t)\sim\pi_{\theta'}}[\frac{p_{\theta}(a_t|s_t)}{p_{\theta'}(a_t|s_t)}A^{\theta'}(s_t,a_t)\nabla logp_{\theta}(a_t|s_t)] \\ =E_{(s_t,a_t)\sim\pi_{\theta'}}[\frac{p_{\theta}(a_t|s_t)}{p_{\theta'}(a_t|s_t)}A^{\theta'}(s_t,a_t)]\\ \approx\sum_{s_t,a_t}\frac{p_{\theta}(a_t|s_t)}{p_{\theta'}(a_t|s_t)}A^{\theta'}(s_t,a_t)$
$\qquad$ 上述有提到，当 $\theta$ 和 $\theta'$ 差距过大时，通过importance sample方法得到的结果会变差，为了防止 $\theta$ 和 $\theta'$ 差距过大，提出PPO。通过PPO计算梯度的方式如下所示：
$J_{PPO}^{\theta'}(\theta)=J^{\theta'}(\theta)-\beta*KL(\theta, \theta')$
$\qquad$ 其中， $\beta KL(\theta, \theta')$ 表示一个约束，用来计算 $\theta$ 和 $\theta'$ 两个不同model输出action的KL divergence，即来衡量 $\theta$ 和 $\theta'$ 的相似程度。这里 $\theta$ 和 $\theta'$ 之间的KL 的divergence不是 $\theta$ 和 $\theta'$ 值的差距，而是他们输出行为上的差距，即在同一个给定状态下，输出不同动作概率分布之间的差距。
$\qquad$ PPO的算法流程如下所示：
在这里插入图片描述
$\qquad$ 其中， $\theta^{k}$ 表示前面某次训练的参数，本人认为 $\theta^k$ 应该更一定次数之后通过 $\theta$ 进行更新。
$\qquad$ 由于上述计算KL divergence比较麻烦，所以提出了PPO2方法来简化PPO，PPO2也是为了使得 $\theta$ 和 $\theta'$ 的差距尽可能的小。PPO2的计算方法如下所示：
$J_{PPO2}^{\theta'}(\theta)\approx min(\frac{p_{\theta}(a_t|s_t)}{p_{\theta^k}(a_t|s_t)}A^{\theta^k}(s_t,a_t),\\ clip(\frac{p_{\theta}(a_t|s_t)}{p_{\theta^k}(a_t|s_t)},1-\epsilon,1+\epsilon)A^{\theta^k}(s_t,a_t))$
$\qquad$ 通过图像可以直观了解PPO2:
在这里插入图片描述
$\qquad$ 其中，横轴表示 $\frac{p_{\theta}(a_t|s_t)}{p_{\theta^k}(a_t|s_t)}$ ，纵轴表示 $A^{\theta^k}(s_t,a_t)$ 前面的系数。蓝线表示 $c l i p$ 函数，绿线表示 $\frac{p_{\theta}(a_t|s_t)}{p_{\theta^k}(a_t|s_t)}$ ，红线表示取 $m i n$ 之后的效果。当收益 $A > 0$ 为正时，需要训练 $\theta$ 增大 $s_t,a_t$ 对被选择的几率，即 $p_{\theta^k}(a_t|s_t)$ 应该增大。但是为了防止 $\theta$ 和 $\theta'$ 差距过大， $\frac{p_{\theta}(a_t|s_t)}{p_{\theta^k}(a_t|s_t)}$ 最大为 $1+\epsilon$ ；当收益 $A < 0$ 为负时，需要训练 $\theta$ 减小 $s_t,a_t$ 对被选择的几率，即 $p_{\theta^k}(a_t|s_t)$ 应该j减小。但是为了防止 $\theta$ 和 $\theta'$ 差距过大， $\frac{p_{\theta}(a_t|s_t)}{p_{\theta^k}(a_t|s_t)}$ 最小为 $1-\epsilon$ 。

THE END

Dragon Fly

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
*、Policy Gradient和PPO(PPO2)

文章目录1、基本组成部分2、policy gradient执行过程3、执行policy gradient的Tips3.1 增加一个baseline3.2 分配合理的reward权重4、Proximal Policy Optimization4.1 On policy 和 Off Policy1、基本组成部分\qquad Policy Gradient由3部分组成，分别是actor，environment和reward function，其中actor是可以控制的，但是environment和reward
复制链接

扫一扫