文章目录 简介同策略on-policy异策略off-policy同策略、异策略区别Sarsa:同策略时序差分控制Q-learning:异策略时序差分控制 为了列表中相同类型好对比 先占坑 等开学再填坑 简介 根据更新Q值时使用的策略是既定策略(on-policy)还是新策略(off-policy)可以分为on/off policy学习 同策略on-policy 异策略off-policy 同策略、异策略区别 Sarsa:同策略时序差分控制 Q-learning:异策略时序差分控制