【学习笔记】强化学习中的Q-Learning

最新推荐文章于 2024-07-03 17:42:28 发布

偶尔范特西

最新推荐文章于 2024-07-03 17:42:28 发布

阅读量253

点赞数

分类专栏：学习笔记

本文链接：https://blog.csdn.net/qq_38255829/article/details/103165830

版权

学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

写在前面

本文内容参考莫凡大神的强化学习教程：
莫凡大神RL教程

Q-Learning的思想

当今社会每个人有自己的做事方式，有些人做事是不顾后果先做了再说，而且从来不吸取教训，比如HK废青；而有些人就不一样了，做事前会拟定策略(policy)，并且根据采取不同策略产生的后果(reward or penalty) 来更新自己的计划表，当然这里的后果在每一次更新自己的计划表前并没有实践，而是靠想象（就好比海贼王里借用强大的见闻色霸气短暂的看到未来）,这就是Q-learning的思想。

具体说说Q-Learning

Q-learning的决策过程中涉及到状态 $s$ 和行为 $a$ ，过程中的后果可以用 $Q$ 值来表示，具体举个例子来说明。比如我现在的状态是认真学习（嗯没错），我们记为 $s_1$ ，现在有两个行为摆在我面前，一个是摸鱼，记为 $a_1$ ，另一个是接着认真学习，记为 $a_2$ ，选择不同的行为会引发不同的潜在后果（好好学习才是王道），假设 $Q(s_1, a_1)$ 为-3， $Q(s_1, a_2)$ 为3，明显 $Q(s_1, a_2) > Q(s_1, a_1)$ ，所以采取了行动 $a_2$ ，这时状态便变成了 $s_2$ ，这时依然面临上述的两种选择 $a_1$ 和 $a_2$ ，此时需继续比较 $Q(s_2, a_1)$ 和 $Q(s_2, a_2)$ 的的值，取较大的执行并得到 $s_3$ ，如此重复下去。我们将前两步的Q表罗列出来：

	$a_1$	$a_2$
$s_1$	-3	3
$s_2$	-2	3

那么我们来看看这张Q表的更新机制。
上述过程中我们选择了在 $s_1$ 时执行 $a_2$ 得到 $s_2$ ，这时候我们就需要用到我们的见闻色霸气了，想象 $s_2$ 时采取两种行为的 $Q$ 值分别是 $Q(s_2, a_1)$ 为-2， $Q(s_2, a_2)$ 为3，这时候给 $Q(s_2, a_2)$ 乘上一个衰减系数 $\gamma$ 再加上到 $s_2$ 为止的后果（奖励/惩罚） $R$ （这一步还没有获取到奖励，因此为0），我们将这一结果记为 $Q(s_1, a_2)$ 现实：
$Q(s_1, a_2)现实 = R + \gamma * max(Q(s_2))\tag{1}$
$\because$ 这里的 $max(Q(s_2))$ 取了 $Q(s_2, a_2)$ ，所以(1)式也可以写为：
$Q(s_1, a_2)现实 = R + \gamma * Q(s_2, a_2)\tag{2}$
$\because$ 在状态转变到 $s_2$ 的过程中我们用到了Q表中的 $Q(s_1, a_2)$ ，将其记为 $Q(s_1, a_2)$ 估计，有了现实和估计就可以跟新Q表啦：将现实与估计做差得到差距，给差距乘上一个学习率 $\alpha$ 再加上原来表中的 $Q(s_1, a_2)$ 便得到了新的 $Q(s_1, a_2)$ ，即
$Q(s_1, a_2) = Q(s_1, a_2) + \alpha * (R + \gamma * Q(s_2, a_2) - Q(s_1, a_2))\tag{3}$
remark： $s_2$ 的决策在更新前并没有执行，在更新完后用以上方法继续做。

算法大致如下（盗莫凡大神的图）：
在这里插入图片描述
其中 $\epsilon-greedy$ 是一种策略，若 $\epsilon=0.1$ 就代表有90%的概率我们会按照Q表的最优值来选择要执行的行为(利用操作，exploitation)，另外10%的情况随机选择行为(探索操作，exploration)。

上述更新过程继续写下去如下：
$Q(s_1) = r_2 + \gamma Q(s_2) = r_2 +\gamma [r_3 + \gamma Q(s_3)] = r_2 + \gamma [r_3 + \gamma [r_4 + \gamma Q(s_4)]] = ...\tag{4}$
即
$Q(s_1) = r_2 + \gamma r_3 + \gamma^2 r_4 + \gamma^3 r_5 + \gamma^4 r_6 + ...\tag{5}$
若 $\gamma = 0$ ，则只能看见眼前的后果，若 $\gamma = 1$ ，则能看到之后所有的后果，即 $\gamma$ 由0到1就看的越来越远。