Sarsa和q-learning的区别
今天看到一道强化学习面试题目,才知道即使自己学了这么多理论,但是肯定是学的倒懂不懂的状态,记录以下。
文章目录伪代码介绍主要区别区别详解图解
伪代码介绍
Q-learning: off policy
Sarsa: on policy
主要区别
Q-learning: off policy, Sarsa: on policy
其实主要区别是他们两个更新Q_table的方式:
Q-Learning:
Q(St,At)←Q(St,At)+α[Rt+1+γmaxaQ(St+1,a)−Q(St,At)]
.
转载
2021-03-11 20:28:59 ·
390 阅读 ·
0 评论