来源地址:
【李宏毅深度强化学习(国语)课程(2018)】“Deep Reinforcement Learning, 2018” by 李宏毅 http://t.cn/RBtg1O2
Policy Gradient策略梯度
-
基本思想
策略梯度算法不采用迂回方式更新策略,而是直接计算策略可能更新的方向。根据策略梯度算法,可以扩展得到actor critic方法。
-
策略梯度算法推导
转移概率推导
策略梯度最大化目标函数(长期回报的期望,值函数)
状态值函数v(s)是从状态s出发,按照策略π采取行为得到的期望回报。
单独解释下,值函数中状态值函数与动作值函数的关系。
图来源地址:https://blog.csdn.net/VictoriaW/article/details/78839929
这里指的是状态值函数。似乎有点熵理论的性质,某种特定信息的出现概率。
期望=概率*值
H(x) = E[I(xi)] = E[ log(2,1/p(xi)) ] = -∑p(xi)log(2,p(xi))
(i=1,2,…n)
其中,x表示随机变量,与之相对应的是所有可能输出的集合,定义为符号集,随机变量的输出用x表示。P(x)表示输出概率函数。变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。表示的是事物带来的惊喜程度。
通过更新参数的梯度,最大化值函数
TRPO
trust region policy optimization
置信区域策略优化
PPO
proximal policy optimization
近端策略优化
- PPO算法推导