【莫烦】强化学习（Q-learning和Sarsa）

最新推荐文章于 2024-04-17 16:42:22 发布

Water-drop-conquer

最新推荐文章于 2024-04-17 16:42:22 发布

阅读量827

点赞数

本文链接：https://blog.csdn.net/weixin_42863507/article/details/106482385

版权

1.Q-learning

Q-learning属于off-policy，即它看着别人玩来学习。而Sara是走到哪一步就选哪一步，所以只能从自身的经验来学习。可以说成Sara比较胆小，尽量保存自身的安全。

在这里插入图片描述

$\epsilon-greedy$ 是用在决策上的策略，假如 $\epsilon-greedy=0.9$ ，说明有90%的概率根据Q-table的最优值来选择action，而10%的概率来随机选择。总之，在当前状态 $s$ ，可以根据自己设计的policy来做下一步动作 $a$ ，因此这是一个自己估计的 $Q (s, a)$ .
此外，在当前状态 $s$ 做动作 $a$ 后，环境会给一个反馈，该反馈包括下一个转态 $s^{\prime}$ 和对应的奖励 $r$ 。求出在状态 $s^{\prime}$ 时的最大 $Q$ 值，即 $max_{a^{\prime}} (s^{\prime}, a^{\prime})$ .
$\alpha$ 是学习效率，来决定这一次的误差有多少要被学习，一般小于1.
$\gamma$ 是对未来奖励的衰减值.
例子：一维和二维的探索者游戏

Sara属于off-policy，它看着别人玩来学习。而Sara是走到哪一步就选哪一步，所以只能从自身的经验来学习。可以说成Sara比较胆小，尽量保存自身的安全。
Q-learning需要计算 $max_{a{\prime}} Q (s^{\prime}, a^{\prime})$ ，即选择当前转态 $s^{\prime}$ 下的最大 $Q$ 值。而Sara计算的是 $Q(s^{\prime}, a^{\prime})$ ，即在下一状态 $s^{\prime}$ 时，再执行一次选择action操作（即步骤S2）。

关注