目录
问题1: 新策略是随机的还是确定的?我们可以使用新策略计算得到的Q值去产生新的轨迹吗?
问题4:Both SARSA and Q-learning may update their policy after every step,正确还是错误?
问题6: Maximization Bias Proof / Q值的最大化偏差估计
问题7:为什么Double Q-Learning能对状态-动作值产生无偏估计?
问题8:Q-Learning与Double Q-Learning的区别?
定理1 MC control 收敛定理
当MC control 满足GLIE条件的时候,就保证了该算法的收敛性。
定理2 SARSA 算法收敛定理
定理3 Q-learning 收敛理论
问题1: 新策略是随机的还是确定的?我们可以使用新策略计算得到的Q值去产生新的轨迹吗?
答:确定的,不可以。
问题2:SARSA与Q-learning的区别?
答:选择动作的更新策略不同,如下图所示:
从下面这道例题可以清楚的区别:
运用SARSA算法,得出的结果为2.5