Q-Learning 和 SARSA 算法对比

最新推荐文章于 2024-07-07 12:18:51 发布

文文学霸

最新推荐文章于 2024-07-07 12:18:51 发布

阅读量86

点赞数

本文链接：https://blog.csdn.net/abcdefg90876/article/details/130433843

版权

1、Q-learning

Q-learning算法的过程可以根据下面的步骤：

首先，我们会初始化一个Q-table，可以是全0或者是其他的数值，一般都是全0，然后我们设定训练的轮数episodes，这里从初始状态直到终止状态算作一轮。那么在每一轮中，我们会有一个初始状态，然后会不断的采取动作，这里每一个动作叫做一个step。在每一个step中，我们根据当前的状态通过一定的策略选择动作A，这里的策略可能是以0.9的概率选择Q-table中当前状态对应的q值最大的动作，以0.1的概率选择随机动作。然后在选择动作A之后，我们可以得到奖励值R和新的状态S，那么当前q值的更新基于下面的公式：

其中alpha是学习率，表示保留之前训练效果的多少，学习速率α越大，保留之前训练的效果就越少，如果学习率是1的话，完全用新学到的q值替换掉了原来的q值。R是从环境获得的奖励，而gamma是折现系数，我们会选择到新状态之后能够得到的最大的Q值来更新当前的Q值。

对于Q-learning来说，
1.在状态s'时，只是计算了在s'时要采取哪个a'可以得到更大的Q值，并没有真的采取这个动作a'。
2.动作a的选取是根据当前Q网络以及策略(e-greedy)，即每一步都会根据当前的状况选择一个动作A，目标Q值的计算是根据Q值最大的动作a'计算得来，因此为off-policy学习。