从s到最后一个状态的一个系列
奖励是一个随机变量
目标函数:随机变量的期望(1)
:对于系列,找到最优策略
假设神经网络的结构参数为
公式(1)化简可得:(2)
公式(2)求取梯度得:(3)
通过倒数求变换得:(4)
(4)代入(3)得到:(5)
对于序列T,策略
(6)
将6代入5得:
(7)
策略梯度:
更新梯度
优点
- 更好的收敛性
- 高效处理行为空间维度较高或者是连续的问题
- 能够学到一些随机策略
- 计算价值函数很困难,基于策略函数就简单了
从s到最后一个状态的一个系列
奖励是一个随机变量
目标函数:随机变量的期望(1)
:对于系列,找到最优策略
假设神经网络的结构参数为
公式(1)化简可得:(2)
公式(2)求取梯度得:(3)
通过倒数求变换得:(4)
(4)代入(3)得到:(5)
对于序列T,策略
(6)
将6代入5得:
(7)
策略梯度:
更新梯度
优点