深度强化学习之近端策略优化（Proximal Policy Optimization)

最新推荐文章于 2024-07-23 17:43:55 发布

松间沙路hba

最新推荐文章于 2024-07-23 17:43:55 发布

阅读量5.9k

点赞数 5

分类专栏：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hba646333407/article/details/104308146

版权

笔记专栏收录该内容

10 篇文章 4 订阅

订阅专栏

在这里插入图片描述
今天学习了李宏毅老师的深度强化学习课程—策略梯度和近端策略优化，其中近端策略优化是策略梯度的升级版本，并且是openai的默认强化学习算法，可见其重要性。近端策略优化可以在策略梯度的基础上，将在策略变为离策略变，并添加一定的约束得到，因此本部分内容包括策略梯度、在策略变离策略和添加约束三部分内容。

策略梯度方法是对策略参数化，然后通过梯度下降的方法对参数进行优化，从最大化期望累积奖励出发，推导得到参数的更新公式，针对公式中存在的不足，给出了两种改进方式：添加基准和为每个动作分配合适置信度，并定义了优势函数。
在这里插入图片描述

在策略变离策略
在策略：待学习的代理与和环境交互的代理是相同的。
离策略：两者是不同的。
在策略方式下，当策略参数得以更新时，需要重新采样训练数据，而将在策略变为离策略的好处在于，可以使用另一个策略的样本训练当前策略，而那个策略是固定的，因而可以重用这些样本数据。这里用到了重要度采样的概念，但重要度采样也可能存在问题，需要保证两个策略之间不能差别太大。最后给出了离策略下的目标函数。
在这里插入图片描述

为了满足上述的要求，需要在目标函数中额外添加约束，根据添加的约束方式不同，可以有两种算法：PPO(Proximal Policy Optimization)和TPRO(Trust Region Policy Optimization)。

松间沙路hba

关注

5
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

松间沙路hba 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。