我们在估值函数(value function)或者是策略(policy)时,需要用到一些样本,这些样本也需要采用某种策略生成。
One-policy和off-policy区别关键看,当我们在估值函数或者策略时候,采用的策略是否与样本生成所采用的策略一致,若一致则是one-policy。反之,则是off-policy。
One-policy和off-policy区别
最新推荐文章于 2021-04-13 09:43:49 发布
我们在估值函数(value function)或者是策略(policy)时,需要用到一些样本,这些样本也需要采用某种策略生成。
One-policy和off-policy区别关键看,当我们在估值函数或者策略时候,采用的策略是否与样本生成所采用的策略一致,若一致则是one-policy。反之,则是off-policy。