Q-Learning算法:
1,在环境S1中选出动作a1
2,得到a1这一步的动作价值
Q-target = R + γ*在状态S2中最优的下一步Q(s2, *a)的值
3,更新s1,a1这个状态的Q值
4,做出a1动作得到s2
Sara算法:
1,在环境S1中选出动作a1并得到S2
2,由环境S2选出将要下一步要进行的a2
3,由a1的奖励R,和Q(s2,a2)得到Q-target
4,由Q-target和原先的Q(s1,a1)去更新得到新的Q(s1,a1)
注:Q(s1,a1) = Q(s1, a1)+ α(Q-target - Q(s1,a1)) # α是学习率
二者在流程上是十分相似的,其区别在于Q-Learning在计算下一步的Q值时是用的S2状态中最好的那个Q值,但由于greedy在,所以实际上可能并不会采取这个动作。而Sara算法计算下一步Q值时是直接用已经得出的那个a2动作的Q值。
换句话说,当走到S2这个状态时,如果S2是个“好状态”,那么Sara一定会选择最优的那一步a2,而Q-Learning可能会“冒险”选择其他动作(要看动作选择函数中的greedy police的值)。
可以这么理解:面对一道难题,Sara比较老实,直接回答自己知道的答案,然后再检查自己这道题的是否拿到了分。而Q-Learning这个学生很聪明,他知道这道题(这个状态)的最优答案,但他也很调皮,他觉得这道题已经知道答案了所以先把这分加上,然后可能会去尝试其他答案。
对于同样的(s1,a1)得到的S2,Sara是先做出了a2动作,再计算这个动作对应的Q值,而Q-learning是得到S2后思考这个S2这个状态最优的动作是什么后就加上这个最优动作的Q值,然后再去选动作。
所以在模型训练表现上来看,Sara会看上去相对胆小,选错了就得到选错了的Q值,而Q-learning会更激进,哪怕选错了,也要得到这一步最优的Q值。
在这个阶段,如果将greedy police(探索程度)的值设为1,也就是说Q-learning一定会选择计算Q-target时的那个动作,Sara也会选择S2对应的最优动作(不会选错),那么Q-learning和Sara算法某种程度上可以看做是一样的。(我个人看法)