1. Sarsa(On-policy) 用下一步一定会执行的action来更新优化Q表格,整个网络就只存在一种策略,(即用同一种策略去选取action,优化Q表格) 红圈处,的Q(S‘,A‘)。里边用到的是下一步一定会执行的ACTION。 2.Q-learning(Off-policy) 两种策略,一种是目标策略(不管下一步的action),一种是行为策略(探索环境) 主要就是红线处的(经验)。 红圈处,用来更新Q表格的参数,不管下一步的动作具体是什么。默认就是取的最大值。 具体对比: