在强化学习中,算法是否为On-Policy,取决于算法的优化目标是否依赖行为策略的动作概率分布。若依赖,则该算法为On-Policy,往往需要使用重要性采样方法来增加样本效率。
具体而言,在一些优化目标依赖行为策略的动作概率分布的方法中,若直接使用由行为策略采集的样本进行梯度计算,其梯度的期望值实际上是依赖于行为策略的概率分布,这导致计算出来的梯度期望值并不是当前优化的目标策略的梯度期望值,目标策略将无法进行正确优化。
具体的例子后续有时间再做补充……
在强化学习中,算法是否为On-Policy,取决于算法的优化目标是否依赖行为策略的动作概率分布。若依赖,则该算法为On-Policy,往往需要使用重要性采样方法来增加样本效率。
具体而言,在一些优化目标依赖行为策略的动作概率分布的方法中,若直接使用由行为策略采集的样本进行梯度计算,其梯度的期望值实际上是依赖于行为策略的概率分布,这导致计算出来的梯度期望值并不是当前优化的目标策略的梯度期望值,目标策略将无法进行正确优化。
具体的例子后续有时间再做补充……