强化学习之策略梯度及PPO算法

最新推荐文章于 2024-03-16 22:10:09 发布

shinel`l

最新推荐文章于 2024-03-16 22:10:09 发布

阅读量322

点赞数

分类专栏：深度学习基础文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44898314/article/details/125882353

版权

深度学习基础专栏收录该内容

7 篇文章 0 订阅

订阅专栏

本文深入探讨了强化学习中的策略梯度算法，强调了演员、环境和奖励函数的角色。策略梯度通过调整演员的内部参数以最大化期望奖励，利用梯度上升方法优化。同时，文章对比了蒙特卡洛和时序差分学习的更新频率和学习效率。此外，文章还简要介绍了PPO（Proximal Policy Optimization）算法，它是策略梯度的一种改进，旨在通过限制策略更新的幅度来提高稳定性。

摘要由CSDN通过智能技术生成

#策略梯度及PPO算法

##策略梯度

强化学习有三个组成部分：演员、环境和奖励函数；环境和奖励函数是在开始之前事先给定的，能做的是调整策略使演员得到最大的奖励，策略决定了演员的行为。

###演员跟环境的互动

在一个试验里，环境是一个函数，该函数一开始会输出一个状态s，演员看到输出状态后会突出行为a，把环境输出的s与演员输出的行为a串起来，称为一个轨迹；每一个轨迹的概率可以求解出来。

轨迹的概率取决于：环境的行为和agent的行为；环境的行为是规定好的，不能人为控制；agent的行为由演员自己控制，随着行为的不同，同样的轨迹，会有不同的出现概率。

###奖励函数

奖励函数根据某一状态采取的某一动作决定该行为能得到多少奖励，我们需要做的是调整演员内部参数使得奖励R的值越大越好；使得期望奖励最大化，本章使用梯度上升，（公式省略）

###蒙特卡洛（MC）强化学习和时序差分（TD）学习

两者之间的区别：

1.两者更新频率不同，蒙特卡洛强化学习方法是每个episode更新一次，需要经历完整的状态序列后再更新，时序差分是每个step更新一次，时序差分更新频率更快；

2.时序差分强化学习能够在知道一个小step后进行学习，比蒙特卡洛强化学习更快速灵活；

#PPO

PPO前身叫信任区域策略优化（未完待续……）

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。