PPO,Proximal Policy Optimization Algorithms 论文阅读

TRPO的优化方式比较复杂,对于某些模型结构无法使用,例如模型使用了dropout或policy跟value function模型参数进行了共享。PPO算法基于TRPO的目标函数进行了简化,使用目标函数的一阶导数进行policy的更新,并且更新时可以进行多次迭代,重复使用现有的数据更新policy。

先看TRPO的目标函数(是surrogate的)

其复杂的优化方式主要来源于那个hard的KL散度约束, 为了简化求解,可以将约束去掉,将KL作为惩罚项加到目标函数中,成为如下形式:

优化这个公式就很简单了,可以使用梯度的方法去优化。 这个目标函数存在的问题就是那个惩罚权重\beta不太好确定,这也是为什么TRPO没有采用这个目标函数的原因。作者给出了个动态调整\beta的方法。先设定一个KL散度的目标值d_{targ},通过比较当前KL散度值与d_{targ}的大小来动态调整\beta,公式如下:

还是很直接的,d小了就减小KL的惩罚,大了就增大KL的惩罚。 但这个不是本文提出的最好方法,作者发现比这个更好的方法是使用如下目标函数,对TRPO目标函数进行clip:

其中r_{t}\left ( \theta \right ) 是重要性采样的比值 r_{t}\left ( \theta \right )=\frac{\pi_{\theta }\left ( a_{t}\mid s_{t} \right )}{\pi_{\theta old}\left ( a_{t}\mid s_{t} \right )},因此r\left ( \theta_{old} \right )=1。上面公式将\hat{A_{t}}前的权重clip到\left ( 1-\epsilon ,1+\epsilon \right )\epsilon是设定的一个参数,论文用\epsilon =0.2。当\hat{A_{t}}> 0时,需要增加\pi_{\theta }\left ( a_{t}\mid s_{t} \right ),因此r_{t}\left ( \theta \right )> 1,其上界为1+\epsilon,如下图左边。当\hat{A_{t}}< 0时,需要降低\pi_{\theta }\left ( a_{t}\mid s_{t} \right ),因此r_{t}\left ( \theta \right )< 1,其下界为1-\epsilon,如下图右边。下图红点为起始的r值,也就是r\left ( \theta_{old} \right )L^{CLIP}不会大于设定值。可以理解成r_{t}\left ( \theta \right )超过阈值的那些数据就不会用到了,梯度会倾向于更新policy使得policy调整r_{t}\left ( \theta \right )在阈值内的那些数据的结果。

 上面目标函数的目的就是让policy的更新不会与之前差别太大,类似TRPO的trust region。在spinningup中将上式进行了一点修改,改成了下面目标函数:

其中

A> 0L函数变为下式,r_{t}\left ( \theta \right )不会大于1+\epsilon,跟上面的目的一样:

 当A< 0L函数变为下式,r_{t}\left ( \theta \right )不会小于1-\epsilon,跟上面的目的一样:

 PPO总的算法流程:

其中第6步跟第7步是可以多次迭代更新参数的, 第6步更新时还增加了一个更新后KL散度的计算,使其KL散度不会大于某个设定的阈值,大了的话就early stop跳出迭代。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 近端策略优化算法proximal policy optimization algorithms)是一种用于强化学习算法,它通过优化策略来最大化累积奖励。该算法的特点是使用了一个近端约束,使得每次更新策略时只会对其进行微调,从而保证了算法的稳定性和收敛性。近端策略优化算法在许多强化学习任务中都表现出了很好的效果,成为了当前最流行的强化学习算法之一。 ### 回答2: 近端策略优化算法是一种新兴的强化学习算法。它具有高效的策略优化和稳定的收敛性。近端策略优化算法在深度学习、自然语言处理、机器视觉、机器人学和其他应用领域都得到了广泛的应用。 近端策略优化算法的核心思想是对策略函数进行优化,以便最大化预期奖励。该算法使用指数加权平均方法来维护与策略函数相关的价值函数和状态值函数。在每个时间步中,它会使用当前策略函数执行一个或多个轨迹,然后使用这些轨迹更新策略函数的参数。 相比于其他优化策略的强化学习算法,近端策略优化算法有以下几个优点: 1. 收敛速度快——该算法具有高效的优化算法和稳定的训练过程,可以在较短的时间内收敛到最优解。 2. 收敛性强——该算法能够在训练过程中处理大的批量数据,并且可以快速地找到全局最优解。 3. 易于实现和调整——该算法的实现过程需要较少的超参数,使其易于实现和调整。 4. 可扩展性强——该算法可以扩展到复杂的问题和大规模数据集合。 总结: 近端策略优化算法是一种高效、稳定、易于实现的强化学习算法。它能够快速地处理大规模数据集合,并找到全局最优解。该算法在深度学习、自然语言处理、机器视觉、机器人学等领域中得到了广泛的应用。 ### 回答3: Proximal Policy Optimization (PPO)算法是一种强化学习中的模型优化算法。它的主要目标是发现学习最优策略的方法,并将其应用到机器人控制、游戏玩法、交通规划和服务机器人等任务中。 PPO算法的核心思想是使用一个剪切函数来限制策略更新的幅度,以确保算法的收敛性和稳定性。与传统的Policy Gradient算法不同,PPO算法对不同样本的更新幅度进行了限制,避免了策略更新过于激进或保守的情况,从而使算法更加可靠。 PPO算法的目标函数由两部分组成:第一部分是优化目标,即最大化期望奖励,第二部分是剪切函数。在PPO算法中,剪切函数被定义为两个策略之间的距离,它用于限制策略更新的幅度,以确保策略优化的稳定性。该函数使用了一个参数 $\epsilon$ 来控制策略更新的幅度,当距离超过阈值时,算法就会停止更新策略。 PPO算法的主要优点在于它的稳定性和可靠性。与其他优化算法相比,PPO算法采用了一种有限的剪切函数,从而避免了策略更新过于激进或保守的情况,而这种情况往往会导致算法崩溃或无法收敛。此外,PPO算法还具有高效性和可扩展性,可以应用于大规模深度学习中。 总之,PPO算法是一种强化学习中比较先进的算法,应用范围广泛,而且具有稳定性和可靠性,是未来智能机器人、自动驾驶等领域的重要研究方向。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值