李宏毅强化学习视频学习笔记（三）——PPO与PPO2

最新推荐文章于 2024-03-25 20:44:29 发布

源氏失去了我的激素

最新推荐文章于 2024-03-25 20:44:29 发布

阅读量1.2k

点赞数 1

分类专栏：强化学习学习日志文章标签：学习机器学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42421591/article/details/126290514

版权

学习日志同时被 2 个专栏收录

13 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

一、PPO

由于PG算法加入了重要度采样，因此需要考虑到两个策略不能差异过大，而PPO就是来解决该问题的。为了衡量两个策略有多像，我们提出了下式控制元素：

该元素表示的含义在于给出同样地状态值s，两个策略所产生的动作之间的差距。将该元素用于目标函数J中

那么结合（一）（二）两课笔记我们可以梳理出来PPO的整体运行流程为：

由于重要度采样方法存在，这里的θ可以多次使用θ'的采样数据进行更新。那么如果两个参数pθ与pθ'真的差异很大了怎么办呢？我们以本文开头的KL散度为依据，通过改变β来控制：

二、 PPO2

PPO算法在KL散度方面仍然具有计算复杂的问题，PPO2采用下式减轻了计算量。

该式中clip（p1, p2, p3）的含义在于：取值只能在p2~p3之间，也就是说当p1<p2时输出p2,p1>p3时输出p3，当p1∈[p2, p3]之间时输出p1。用函数图像表示clip的话就是下图，横轴为pθ/pθ'：

此时结合全式来看，加入的绿色虚线表示的是pθ/pθ'。那么全式中要取最小min的话，就为A>0与A<0两种情况，下图红线表示取最小min时pθ/pθ'的情况：

源氏失去了我的激素

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。