Deterministic Policy Gradient(DPG)
Stochastic Policy Gradient(SPG)
DPG是SPG的概率分布方差趋近于0的极限状态。
policy gradient 的思想是,沿着目标函数变大的方向调整policy的参数。
- SPG
policy是一个从state到action概率分布的映射。,因此performance objective定义如下,包涵两次积分,其中一次为对policy space的积分。
SPG的梯度公式为:
由上图可以看出,SPG需要同时考虑状态概率分布以及动作概率分布,因此如果要进行学习训练,就需要大量的样本来覆盖整个二维的状态动作空间。 - DPG
DPG的policy是从state到action的一个映射S->A,因此performance objective 定义如下,只用求一次积分,不需要对action space 求积分。
DPG的梯度公式为:
由上图可得,DPG仅需要考虑状态概率分布。