Lee Hung-yi强化学习 | (3) Q-learning（Basic Idea）

最新推荐文章于 2022-07-03 23:58:29 发布

CoreJT

最新推荐文章于 2022-07-03 23:58:29 发布

阅读量210

点赞数

分类专栏： Lee Hung-yi强化学习

原文链接：https://blog.csdn.net/ACL_lihan/article/details/104041905

版权

Lee Hung-yi强化学习专栏收录该内容

8 篇文章 2 订阅

订阅专栏

Lee Hung-yi强化学习专栏系列博客主要转载自CSDN博主 qqqeeevvv，原专栏地址
 课程视频
 课件地址

1. Q-Learning

Q-learning 是 value-based 的方法，在这种方法中我们不是要训练一个 policy，而是要训练一个critic网络。critic 并不直接采取行为/动作，只是对现有的 actor $\pi$ ，评价它的好坏。
在这里插入图片描述

2. Value-Function

critic 给出了一个 value function $V^\pi(s)$ ，代表在遇到游戏的某个 state 后，采取策略为 $\pi$ 的actor 一直玩到游戏结束，所能得到的 reward 之和。
在这里插入图片描述
$V^\pi(s)$ （即critic）的输入是某个state，输出是一个scalar标量。上图游戏画面中左边的 $V^\pi(s)$ 很大，因为当前怪物比较多，防护罩也没被摧毁，从此时玩到游戏结束得到的 reward 就会比较多；而相对的右边的 $V^\pi(s)$ 就比较小。综上 critic 的输出取决于两点：

state，这个就是左右图对比，刚才说过了
actor 的策略 $\pi$ ，如果是个很弱的actor即便左图可能也得到很低的reward。

计算 $V^\pi(s)$ 的2种方式：

Monte-Carlo (MC) based approach ：

将 $S_a$ 作为 $V^\pi(s)$ 的输入最终输出 $V^\pi(S_a)$ ，而实际上应该得到的cumulative reward（期望）是 $G_a$ 。这其实和 regression problem 很相似，因为我们的目标就是通过训练让 $V^\pi(S_a)$ 越来越接近 $G_a$ ，即理想情况下 $V^\pi(S_a) =G_a$ (这里为了方便，假设学习率 $\alpha$ 为1，原始的公式为 $V(S_t) = V(S_t) + \alpha (G_t-V(s_t))$ 。

注意： $V^\pi(s)$ 是一个网络，因为在游戏中，不可能所有的image都看过，所以将 $V^\pi(s)$ 做成网络来提高泛化性。(State太多，维护一个Q表不切实际)

Temporal-difference (TD) approach

MC based的方法要求遇到 $S_a$ 后把游戏玩到结束，如果游戏太长的话，那就可能收集不到多少数据去让网络去拟合 $G_a$ (从 $S_a$ 开始一直到游戏结束的cumulative reward).

而 TD 只需要从 $S_t$ 玩到 $S_{t+1}$ 就行，因此只需要算 $V^\pi(S_t)$ = $V^\pi(S_{t+1})$ + $r_t$ (这里为了方便，假设学习率 $\alpha$ 和衰减系数 $\gamma$ 都为1，原始的公式为 $V(S_t) = V(S_t) + \alpha (r_t+\gamma V(S_{t+1})-V(S_t)))$ 。

那么 $V^\pi(S_t) - V^\pi(S_{t+1})$ 应该要越接近 $r_t$ 才是正确的结果，所以将网络往这个方向去train，就可以把这个function训练出来。

MC v.s. TD ：
在这里插入图片描述
MC 方法的问题在于最后得到的 $G_a$ 的方差很大（ $G_a$ 是在遇到 $S_a$ 的情况下使用策略 $\pi$ 的actor一直玩游戏直到结束得到的实际 reward(收获，即时奖励的和)，是一个随机变量，因为游戏是有随机性的，所以每一次得到 $G_a$ 是不一样的）。

假设 $G_a$ 是k步 reward 的求和，而根据公式 $Var[kX]=k^2Var[X]$ ，最终会相差 $k^2$ 倍。所以最后 $G_a$ 的方差很大，即每次算出来的 $V^\pi(S_a)$ 都会相差很多。

而用 TD base 中有随机性的部分是 r，它的方差比较小。但 TD 的问题在于 $V^\pi(S_{t+1})$ 可能不准确。

下面举个例子看它们的区别：
在这里插入图片描述
可以看出，同一个actor，用MC based和TD，算出来的结果是不一样的，两种结果没有绝对的正确与否。

其中，在第一个episode中， $S_a$ 出现后 $S_b$ 的reward变为0。

在Monte-Carlo方法中，就会认为 $S_a$ 是一个不好的state，才导致后来的 $S_b$ 的reward变为0，所以 $V^\pi(S_a)$ 为0.

而TD方法中，会认为 $S_a$ 后 $S_b$ 得到 reward 为 0 只是一个巧合，与 $S_a$ 无关。大部分情况下 $S_b$ 还是会得到 3/4 的 reward，所以认为 $V^\pi(S_a)$ 为3/4。（因为$V^\pi(S_a)= $V^\pi(S_b) + r_a$ ）

3. Q-function

在这里插入图片描述
$Q^\pi(s,a)$ 的输入是一个 (s, a) 的 pair，然后输出一个cumulated reward的期望值。这里的cumulated reward指的是在state s下强制采取 action a（不管这个actor认为在state s下采取action a是不是好的，都强制采取a），然后用这个actor $\pi$ 一直玩到游戏结束所得到的cumulated reward。

$Q(s_t,a_t) = r_t + \gamma maxQ(s_{t+1},a_{t+1})$ (这里为了方便，假设学习率 $\alpha$ 和衰减系数 $\gamma$ 都为1，原始的公式为 $Q(s_t,a_t) = Q(s_t,a_t) + \alpha (r_t + \gamma maxQ(s_{t+1},a_{t+1})-Q(s_t,a_t))$
在这里插入图片描述
以上是Q function的两种常见的写法。

如果action可以穷举，则可以使用右边的写法；否则，使用左边的写法。
在这里插入图片描述
critic 看上去只能评价某个 action 的好坏，但是实际上可以直接用它来做 reinforcement learning。方法是只要学到一个 $\pi$ 的 Q function $Q^\pi(s,a)$ ，就能有办法找到一个更好的 actor $\pi'$ ，这样就能不断更新policy $\pi$ 。

什么叫 $\pi'$ 比 $\pi$ 好呢？
在这里插入图片描述
就是说面对所有 state s 时，使用策略 $\pi'$ 得到的 value 一定比使用策略 $\pi$ 得到的Q value 大，即： $V^{\pi'}(s)\geqslant V^\pi(s)$ .

找 $\pi'$ 的方法是，对于已经学到的 Q function $Q^\pi(s,a)$ ，在某个给定的 state 下，分别带入可能的 action，看看哪一个 action 使得Q value最大，把使得函数值Q value最大的 a，作为以后遇到该 state 时采取的 action（从而得到一个新的策略（贪婪））。

下图证明了 $V^{\pi'}(s)\geqslant V^\pi(s)$ ：
在这里插入图片描述

4. Q-Learning 使用技巧

技巧1: 使用Target network

Q-function的训练，参考了TD的方法，即 $Q^\pi(s_t,a_t) = r_t + Q^\pi(s_{t+1},\pi(s_{t+1}))$ 。

现在以 $s_t、a_t$ 作为输入(当前网络)，则输出的结果 $Q^\pi(s_t,a_t)$ ，由上图可以得出，这个结果应该尽可能接近以 $s_{t+1}、a_{t+1}$ 作为输入(目标网络)，则输出的结果 $Q^\pi(s_{t+1},\pi(s_{t+1}))$ 再加上 $r_t$ 的结果。

也是一个类似回归的问题，但是这里不同于前面的Monte-Carlo (MC) based approach和Temporal-difference (TD) approach的回归问题，这里的 $Q^\pi(s_{t+1},\pi(s_{t+1}))$ 是一直在变化的，即 $Q^\pi(s_t,a_t)$ 要去拟合的目标，其实是一直在变化，这就对训练产生很大的干扰。

因此，

将以 $s_{t+1}、a_{t+1}$ 作为输入的网络（也叫Target network）固定住，这样 $r_t + Q^\pi(s_{t+1},\pi(s_{t+1}))$ 也变成一个固定的值，然后让以 $s_t、a_t$ 作为输入的网络(当前网络)去拟合这个固定的（目标）值。
经过N次训练后，将左边的（当前）网络的参数覆盖掉Target network，形成新的Target network（延时更新）

技巧2：使用exploration
Q-learning方法是根据查表来估值的，只有在状态 $s_t$ 执行过动作 $a_t$ 之后，我们才能估得出 $Q^\pi(s_t,a_t)$ 。即便是使用DQN（就是说将Q-function改为一个network，把查表的过程变成network的输入输出）减缓了这个问题，但也可能存在一些状态 $s_t$ 没执行过动作 $a_t$ ，没办法估出 $Q^\pi(s_t,a_t)$ 。

现在在状态s下，都没有采取过action $a_1、a_2、a_3$ ，所以所有的Q-value都为0。接下来与环境的互动中，sample到在状态s下，采取动作 $a_2$ ，会使得Q-value从0变成1。

由 $a = \arg \max_{a} Q(s,a)$ 可以知道，接下去在状态s下就会一直采取动作 $a_2$ ，而不会去尝试可能未来会获得更大reward的 $a_1、a_3$ 。

为了解决这个问题可以使用以下两种方法：

1) Epsilon Greedy
在这里插入图片描述
假设 $\epsilon$ 为0.3，那就会有0.7（1-0.3）的几率会使用以往的经验去执行动作(选择具有最大Q值的动作)，而剩下0.3的概率随机去试探新的动作。

$\epsilon$ 会随着训练的进行不断减少，就是说在一开始的时候 $\epsilon$ 的值会大一点，因为还不知道哪个action是好的，所以还要提高探索（exploration）的次数(鼓励探索)。随着训练的进行，开始知道哪些action是好的哪些是不好的，就可以减少探索（exploration）的次数（趋于贪婪，保证收敛）。

2）Boltzmann Exploration
在这里插入图片描述
因为Q-value可能有正有负，所以先取exp全部转成正的。然后除以分母，做Normalization。

这样就将所有动作的Q value转化为概率，概率的大小和Q value的大小有关。然后通过概率的大小去选择不同动作a，概率大的被选到的次数就会多，概率小的被选到的次数就会少，这样即便Q value小的action也还是有可能会被选到。（添加一个softmax层）

技巧3：使用Replay Buffer

把actor的每笔experience (st,at,rt,st+1)放到一个buffer里面，其中buffer里面的exp可能来自采取不同policy的actor（假设actor和环境互动一万次后就更新参数，而buffer里面能存放5万个的exp，就会导致buffer里有5种不同的actor的exp），当buffer满了再替换旧的exp。训练过程时每次从buffer里面（随机）sample一个batch（比如说100个exp）出来训练。