李宏毅深度强化学习(国语)课程(2018) 笔记（二）Proximal Policy Optimization（PPO）

Interesting AI

已于 2022-07-07 08:11:49 修改

阅读量537

点赞数 1

分类专栏：李宏毅深度强化学习(国语)课程(2018) 文章标签：人工智能深度学习神经网络机器学习

于 2022-06-27 20:48:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_22749225/article/details/125491056

版权

李宏毅深度强化学习(国语)课程(2018) 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

李宏毅深度强化学习(国语)课程(2018)_哔哩哔哩_bilibili

on-policy：要learn的agent和环境互动的agent是同一个，即agent一边跟环境互动，一边学习；

off-policy：要learn的agent和环境互动的agent是同一个，即在旁边看别人玩。

on-policy→off-policy的目的是为提高数据利用效率。

on-policy→off-policy的公式推导：实现从p分布的policy中sample data→q分布的policy中sample data。

实际操作中，p分布和q分布还是不能差太多，否则会导致一些问题出现。这是因为期望相等，方差Variance不一定相等，公式推导如下。

如果sample的次数不够多，就会出现问题，如下图。

由于跟环境做互动的是θ＇，而不是θ，因此，θ＇ sample出来的数据和θ没有关系。进而，可以实现θ＇跟环境做互动产生一大堆数据以后，θ可以update很多次。Train到一定程度以后，θ＇重新跟环境做互动。

$A^{^{\theta }}(s_{_{t}},a_{_{t}})$ 是Accumulated Reward 减去 bias，用来估测动作的相对好坏，如果正就增加动作几率，如果负，就减少几率。

这里有个假设， $p_{\theta }(s_{_{t}})$ 和 $p_{{\theta }'}(s_{t})$ 分布是差不多的，可以抵消，另外的原因是因为算不出来的。

前面的假设是 $p_{\theta }(s_{t}|a_{t})$ 与 $p_{{\theta}' }(s_{t}|a_{t})$ 不能差太多，否则结果会不准确。那么，如何避免差太多，就是PPO要做的事情，就是在training的时候，多加了一个constraint。这个constraint就是θ和θ＇这两个model 输出的action的KL散度，KL Divergence。TRPO是PPO的前身，constraint的位置不同是两者的区别。

注意：PPO比TRPO在实操上容易多，效果差不多。KL Divergence并不是θ和θ＇参数的距离，是行为上的距离，即给同一个state的时候，action几率分布之间的差距。

PPO算法流程：

PPO 2 公式复杂，但是操作起来简单。

式中， clip函数的含义

式中，min函数的含义

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
李宏毅深度强化学习(国语)课程(2018) 笔记（二）Proximal Policy Optimization（PPO）

李宏毅深度强化学习(国语)课程(2018) 笔记（二）Proximal Policy Optimization（PPO）
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Interesting AI 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。