参考链接:https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/3-1-A-sarsa/
Sarsa 和Q-learning的过程基本上差不多,这里主要说一下他们的不一样。
Sarsa 属于说到做到,Q-learning说到不一定做到。
解释:
Q-learning在更新Q表的时候,采用的是max Q(s'),但是不会根据max Q(s')采取下一步动作,而是90%取决于Q表中每一步的最大值所代表的action,同时10%取决于Q表中随机状态,更新完Q表之后,就算我之前用了最大值的action,即max Q(s'),但是我还是不一定采用其作为下一步的action,而是根据Q-learning决策算法,决定下一刻的action。决策派,off-policy(离线学习)
Sarsa 在更新Q表的时候,已经根据他的决策过程确定了s'和a'。并根据下一步的Q(s',a')来更新Q(s,a),同时s <- s',a <- a'。就是我说到做到我用了哪个action(a'),我就把他作为我下一步的action。实践派,on-policy(在线学习)
通俗解释就是: