Deterministic Policy Gradient(DPG)
Stochastic Policy Gradient(SPG)
DPG是SPG的概率分布方差趋近于0的极限状态。
policy gradient 的思想是,沿着目标函数变大的方向调整policy的参数。
- SPG
policy是一个从state到action概率分布的映射。,因此performance objective定义如下,包涵两次积分,其中一次为对policy space的积分。
SPG的梯度公式为:
Deterministic Policy Gradient(DPG)
Stochastic Policy Gradient(SPG)
DPG是SPG的概率分布方差趋近于0的极限状态。
policy gradient 的思想是,沿着目标函数变大的方向调整policy的参数。