学习过程来自莫烦大神的视频:
https://www.bilibili.com/video/BV13W411Y75P?p=9
1. Sarsa与Q-Learning对比
- 两者决策部分相同,都是在Q表中选择价值较大的动作
- 两者更新方式不同:
- QL的 Q现实 = R + γ * maxQ(s2),使用s2状态下的最大价值更新Q表,但是在下一步的s2状态下,不一定使用这个产生最大价值的动作(原因有两点:①存在随机取值的情况;②Q表更新了,所以下一步产生最大价值的动作可能换了)。
- Sarsa的 Q现实 = R + γ * Q(s2, a2),使用下一步的动作对应产生的价值,更新Q表。
- 所以Sarsa说到做到,是一个online学习过程。
- 而Q-Learning说到不一定做到,是一个offline学习过程。
- 【不太理解为什么Sarsa更爱回避风险】QL会选择最近的一条通往成功的道路,无论多危险;而Sarsa会选择离危险最远的一条道路,价值是次要的,安全的最重要的。