因为在马尔科夫过程中,在t时间的动作只能影响未来的reward,所以t时间之前的reward不应该对梯度有作用。
强化学习&基于策略7.6 | Credit Assignment信用分配
最新推荐文章于 2023-05-17 04:07:17 发布
因为在马尔科夫过程中,在t时间的动作只能影响未来的reward,所以t时间之前的reward不应该对梯度有作用。