SARSA和Q-learning两者区别: on-policy和off-policy; sarsa选择动作a和a'都是采用-贪婪策略,而Q-learning选取动作a是采用Q最大的动作,a'是-贪婪策略 记给自己看的,不喜勿喷