1、随机策略
1.1 随机策略公式为:
这里的P是一个概率函数,就是说,在给定状态和参数的情况下,输出的的动作服从一个概率分布,也就意味着每次走进这个状态的时候,输出的动作可能不同。
1.2 随机策略梯度公式为:
表明,策略梯度公式是关于状态和动作的期望,在求期望时,需要对状态分布和动作分布进行求积分。这就要求在状态空间和动作空间采集大量的样本,这样求均值才能近似期望。
2、确定性策略
2.1 确定策略公式为:
1、随机策略
1.1 随机策略公式为:
这里的P是一个概率函数,就是说,在给定状态和参数的情况下,输出的的动作服从一个概率分布,也就意味着每次走进这个状态的时候,输出的动作可能不同。
1.2 随机策略梯度公式为:
表明,策略梯度公式是关于状态和动作的期望,在求期望时,需要对状态分布和动作分布进行求积分。这就要求在状态空间和动作空间采集大量的样本,这样求均值才能近似期望。
2、确定性策略
2.1 确定策略公式为: