强化学习算法（五）——Proximal Policy Optimization(PPO)

最新推荐文章于 2022-11-09 01:22:26 发布

冠long馨

最新推荐文章于 2022-11-09 01:22:26 发布

阅读量1.3k

点赞数

分类专栏：强化学习文章标签：机器学习 PPO 强化学习策略梯度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/koulongxin123/article/details/127415921

版权

上文提到过策略梯度的模型优化过程，首先利用当前策略采样获得大量轨迹，然后根据轨迹计算梯度优化模型参数。因为每一轮策略模型更新后，采样获得的轨迹分布发生变化，所以上一轮采样的历史轨迹不能重用。在目标函数中增加了两种策略采样分布的距离（采集到的(s,a)对的距离），希望通过减小KL也就是分布差距实现在优化的同时两种分布不要差距过大。的差距不能太大，否则即使经过重要性采样转换后，所采集的数据的方差仍然具有较大差距。来改变采样数据的分布，这样我们就可以实现从其他策略采样获得的轨迹中学习了。

摘要由CSDN通过智能技术生成

文章目录

Reference
1. Policy Gradient
2. From on-policy to off-policy
3. PPO/TRPO

Reference

[1] Hung-yi Lee: https://youtu.be/OAKAZhFmYoI

1. Policy Gradient

一种policy-based方法，由策略网络直接输出动作。

1.1 Actor, Enviroment, Reward

（1）Actor
Actor指策略网络 $\pi_\theta$ ，输入状态s输出动作。
在这里插入图片描述

（2）Interaction Process
演员与环境的交互过程：将环境状态 $s_i$ 输入到actor，策略网络输出动作 $a_i$ 。将动作 $a_i$ 输入到环境中可以获得奖励和下一状态 $R_{i+1},s_{i+1}$ 。一条完整的轨迹 $\tau$ 由有限个状态动作对组成。
在这里插入图片描述

轨迹概率 $p_\theta(\tau)$

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
强化学习算法（五）——Proximal Policy Optimization(PPO)

上文提到过策略梯度的模型优化过程，首先利用当前策略采样获得大量轨迹，然后根据轨迹计算梯度优化模型参数。因为每一轮策略模型更新后，采样获得的轨迹分布发生变化，所以上一轮采样的历史轨迹不能重用。在目标函数中增加了两种策略采样分布的距离（采集到的(s,a)对的距离），希望通过减小KL也就是分布差距实现在优化的同时两种分布不要差距过大。的差距不能太大，否则即使经过重要性采样转换后，所采集的数据的方差仍然具有较大差距。来改变采样数据的分布，这样我们就可以实现从其他策略采样获得的轨迹中学习了。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

冠long馨 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。