【李宏毅机器学习课程笔记】深度强化学习（二）——PPO（Proximal Policy Optimization）

最新推荐文章于 2024-06-12 11:09:39 发布

修乐伯津

最新推荐文章于 2024-06-12 11:09:39 发布

阅读量1k

点赞数 3

文章标签：强化学习深度学习

本文链接：https://blog.csdn.net/weixin_42770354/article/details/109675283

版权

PPO（Proximal Policy Optimization）

Policy Gradient(策略梯度）
- 基本思想
- Policy Gradient
PPO算法
- 从on-policy到off-policy
- PPO(proximal policy optimization)

Policy Gradient(策略梯度）

基本思想

首先需要知道的是，在Reinforcement Learning里面会有一个Agent跟一个Environment。这个Agent会有Observation看到世界种种变化，这个Observation又叫做State，这个State指的是环境的状态，也就是你的machine所看到的东西。但机器没有办法看到环境的所有状态，所以才会有这个partial of state 这个想法，这个partial of state其实就是Observation。machine会做一些事情（Action），Action会影响环境，会跟环境产生一些互动。因为它对环境造成的一些影响，它会得到Reward，即这些影响是积极的还是消极的。

图1 强化学习的基本思想
而Policy可以理解为一个包含参数 $\theta$ 的neutral network，它将Observation中观察到的变量作为输入，将各个可能执行的action的概率向量作为输出，并基于该概率决定下一步要执行的action。

在这里插入图片描述
我们称游戏从开始到结束的一个完整的回合叫做Episode，则每个Episode是由一个初始状态加上若干个行动action和状态state的组合形成的一个序列构成的（下文称该序列为 $\tau$ ）。每完成一个action，机器会得到一个reward，游戏的目标是让reward最大化，亦即reward是我们的目标函数。

给定一个行动状态序列 $\tau$ , 我们可以得到它对应的收益reward，通过控制actor（实质是控制参数 $\theta$ ），我们可以得到不同的收益。由于actor采取的行动和基于某一个环境下采取行动后得到的状态state是随机的，故我们只能得到一个期望值，最终的目标是要是这个期望值达到最大，该期望值的表示如下图。
在这里插入图片描述
其中 $R(\tau )$ 表示执行某一个序列 $\tau$ 得到的reward， ${\rho _\theta }(\tau )$ 表示在给定的参数 $\theta$ 下执行了序列 $\tau$ 的概率，具体来说，是在出现了某初始状态的概率上，执行某个action，并返回某个状态的概率的乘积，再乘上下一个action的概率和返回下一个状态的乘积…以此类推，如下图所示：

${a_t}$ 表示第 ${t}$ 个action，
${s_t}$ 表示第 ${t}$ 个状态( ${s_1}$ 为初始状态），
${p_\theta }({a_t}|{s_t})$ 表示在状态 ${s_{t}}$ 的基础上，执行 ${a_{t}}$ 的概率，
$p({s_t+1}|{s_{t}},{a_{t}})$ 表示在状态 ${s_{t}}$ 的基础上，执行 ${a_{t}}$ 后得到 ${s_{t+1}}$ 的概率

在这里插入图片描述
而最终的目标就是要使 ${\overline R _\theta }$ ，即采取某一个行动状态序列的概率和该采取该序列获得的reward的乘积之和达到最大。

Policy Gradient

得到目标函数之后，我们利用之前学过的Gradient Descent思想求解目标函数最大值时对应的参数 $\theta$ 。但由于我们要求的是最大值，具体实践时与之前求损失函数最小值所用的方法相反，这里使用的是Gradient Ascent。当然思路是大致相同的，首先还是要求解梯度。

求解梯度的步骤如下，以前文所述目标函数为基础，对参数 $\theta$ 求导，其中，对概率加权的reward求和就是求reward的期望，因此有红框部分的改写，又因为训练的过程中会进行采样训练，采样个数为N，因此公式可以近似表示为N词采样得到的reward的平均。

在这里插入图片描述

PPO算法

从on-policy到off-policy

on-policy和off-policy的区别，在原课程中是这样解释的：

on-policy:The agent learned and the agent interacting with the environment are the same;
off-policy:The agent learned and the agent interacting with the environment are different;

举例来说，当一个学习下棋的machine，它自己和其他人或其他machine下棋，在下棋的过程中学习胜利的方法，这种学习是on-policy的；当它不自己参与而是看着别人下棋同时进行学习，这样的学习则是off-policy的；

Q：为什么要引入off-policy的机制？
A：如果我们使用 $\pi_\theta$ 来收集数据，那么参数 $\theta$ 被更新后，我们需要重新对训练数据进行采样，这样会造成巨大的时间消耗。但利用 $\pi_{\theta}′$ 来进行采样，将采集的样本拿来训练 $\theta$ ， $\theta′$ 是固定的，采集的样本可以被重复使用。

off-policy的原理：Important Sampling(重复性采样)
Important Sampling 主要解决这样一个问题：用于求解一个概率分布的期望值时，所用的样本数据是由另一个概率分布所产生的。
具体做法：根据目标策略 $\pi$ 和行为策略 $b$ 产生相同策略序列的的概率的比值作为权重加权求和得到reward。我们将这个比值称为importance-sampling ratio：

在这里插入图片描述
（虽然得到某个指定的序列除了和策略参数有关外还与环境相关，但比值可以消掉环境带来的影响，即消掉上图第二项中的转移概率 $p$ 。）

需要注意的是，目标策略 $\pi$ 和行为策略 $b$ 的参数（在本文中即 $\theta$ 和 $\theta′$ ）不能相差过大，否则方差会出现较大的差别。

PPO(proximal policy optimization)

初始化policy的参数 $\theta$
在每一次迭代中,使用 $\theta'$ 来和环境互动，收集状态和行动并计算对应的目标函数
不断更新参数，找到目标函数最优值对应的参数 $\theta$

为了防止上面提到的 $\theta$ 和 $\theta'$ 相差过大，我们在问题中加入了KL惩罚因子以约束这个行为。首先需要设置一个能接受的最大差别 $KL_{\max }$ ，当当前的KL大于 $KL_{\max}$ 时增大 $\beta$ （增大惩罚力度），反之则减小 $\beta$ （减小惩罚力度）

在这里插入图片描述

修乐伯津

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
【李宏毅机器学习课程笔记】深度强化学习（二）——PPO（Proximal Policy Optimization）

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar
复制链接

扫一扫