Policy Gradient 策略梯度相关算法

来源地址:
【李宏毅深度强化学习(国语)课程(2018)】“Deep Reinforcement Learning, 2018” by 李宏毅 http://t.cn/RBtg1O2

Policy Gradient策略梯度

  • 基本思想
    策略梯度算法不采用迂回方式更新策略,而是直接计算策略可能更新的方向。根据策略梯度算法,可以扩展得到actor critic方法。
    在这里插入图片描述

  • 策略梯度算法推导
    转移概率推导
    在这里插入图片描述

策略梯度最大化目标函数(长期回报的期望,值函数)
状态值函数v(s)是从状态s出发,按照策略π采取行为得到的期望回报。
单独解释下,值函数中状态值函数与动作值函数的关系。
图来源地址:https://blog.csdn.net/VictoriaW/article/details/78839929
在这里插入图片描述
这里指的是状态值函数。似乎有点熵理论的性质,某种特定信息的出现概率。
期望=概率*值

H(x) = E[I(xi)] = E[ log(2,1/p(xi)) ] = -∑p(xi)log(2,p(xi))
(i=1,2,…n)
其中,x表示随机变量,与之相对应的是所有可能输出的集合,定义为符号集,随机变量的输出用x表示。P(x)表示输出概率函数。变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。表示的是事物带来的惊喜程度。

在这里插入图片描述

通过更新参数的梯度,最大化值函数
在这里插入图片描述

TRPO

trust region policy optimization
置信区域策略优化

PPO

proximal policy optimization
近端策略优化

  • PPO算法推导

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值