Policy Gradient 策略梯度相关算法

最新推荐文章于 2024-07-30 01:27:39 发布

vivimiu

最新推荐文章于 2024-07-30 01:27:39 发布

阅读量1.1k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/vivimiu/article/details/84849346

版权

来源地址：
【李宏毅深度强化学习(国语)课程(2018)】“Deep Reinforcement Learning, 2018” by 李宏毅 http://t.cn/RBtg1O2

Policy Gradient策略梯度

基本思想
策略梯度算法不采用迂回方式更新策略，而是直接计算策略可能更新的方向。根据策略梯度算法，可以扩展得到actor critic方法。
策略梯度算法推导
转移概率推导

策略梯度最大化目标函数（长期回报的期望，值函数）
状态值函数v(s)是从状态s出发，按照策略π采取行为得到的期望回报。
单独解释下，值函数中状态值函数与动作值函数的关系。
图来源地址：https://blog.csdn.net/VictoriaW/article/details/78839929
在这里插入图片描述
这里指的是状态值函数。似乎有点熵理论的性质，某种特定信息的出现概率。
期望=概率*值

H(x) = E[I(xi)] = E[ log(2,1/p(xi)) ] = -∑p(xi)log(2,p(xi))
(i=1,2,…n)
其中，x表示随机变量，与之相对应的是所有可能输出的集合，定义为符号集,随机变量的输出用x表示。P(x)表示输出概率函数。变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。表示的是事物带来的惊喜程度。

在这里插入图片描述

通过更新参数的梯度，最大化值函数
在这里插入图片描述

TRPO

trust region policy optimization
置信区域策略优化

PPO

proximal policy optimization
近端策略优化

PPO算法推导

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。