基于价值的学习算法

Bruce-XIAO

已于 2022-08-15 10:50:15 修改

阅读量650

点赞数 1

分类专栏：【强化学习】文章标签： Q-Learning 强化学习

于 2022-08-13 12:28:14 首次发布

本文链接：https://blog.csdn.net/CCSUXWZ/article/details/126312896

版权

【强化学习】专栏收录该内容

2 篇文章 0 订阅

订阅专栏

基于价值的学习算法

1.背景

本博客主要介绍了两种基于价值的强化学习算法，Sarsa算法和Q-Learning算法,并总结了两种方法的异同点。

2.算法介绍

在基于价值的学习算法中，是根据Q函数的打分去评估当前状态 $s_t$ 下每个动作的好坏，从而根据 $argmaxQ_\pi(s_t,a_t)$ ,选取最佳的动作。在sarsa算法中，是结合了e-greedy探索和利用 $argmaxQ_\pi(s_t,a_t)$ 相结合的算法；而Q-learning算法则更加激进，agent每次选取最佳的动作，即 $argmaxQ_\pi(s_t,a_t)$ 对应的a .回顾其动作价值函数的学习方法，都是去更新Q表格，并且都是单步更新，其具体的过程是：
先得到 $s_t$ ,然后agent做出动作 $a_t$ ,环境发出动作 $s_{t+1}$ 和奖励 $r_t$ , 对于sarsa算法,其Q函数的更新方式是：
$Q(s_t,a_t) \leftarrow Q(s_t,a_t)+\alpha[r_t+\gamma(Q(s_{t+1},a_{t+1})-Q(s_t,a_t)]$
上述公式的含义为：

现在的Q值=原来的Q值+学习率*（立即回报+gamma*后继状态的最大Q值-原来的Q值）

    上式中， $r_t$ 是t时刻的奖励值，右边括号中的 $Q(s_{t+1},a_t)-Q(s_t,a_t)$ 是表示时序差分（TD Error），即下一个时刻动作价值减去当前时刻的动作价值， $Q(s_{t+1},a_t)$ 中的 $a_{t+1}$ 是下一步一定会执行的动作。由于状态 $s_{t+1}$ 的不确定性，前面乘了一个折扣因子 $\gamma$ , $\alpha$ 表示学习率。该公式的含义就表示在t时刻在状态 $s_t$ 下选择动作 $a_t$ 的价值是 $Q(s_t,a_t)$ ，它是由当前时刻的奖励与时序差分价值的折扣之和，是一种单步更新Q表格的方法。sarsa算法在做动作时，有两种方法，一种是以 $\epsilon$ 的概率从动作集合中取探索，随机选择一个动作；另一种方法是以 $1-\epsilon$ 的概率利用已有的Q表格，选取价值最大的动作，即a= $argmaxQ_\pi(s_t,a_t)$ 。
    在Q-learning中，Q表格的更新不需要用到下一个状态，因为agent的动作更加激进，每次选择价值最大的动作，即a= $argmaxQ_\pi(s_t,a_t)$ ，其更新Q函数的方式是：
$Q(s_t,a_t) \leftarrow Q(s_t,a_t)+\alpha[r_t+\gamma(maxQ(s_{t+1},a_{t})-Q(s_t,a_t))]$
    可以看到，与Sara不同的是，Q-Learning在更新Q表格的时候，不需要下一时刻的状态 $s_{t+1}$ 。

举个例子：
在马里奥游戏中，假设当前状态是初始状态， $s_1$ ，下一个状态是遇到前方是蘑菇这个状态，记作 $s_2$ ，agent一共有4个动作, $a_1$ ：往右， $a_2$ :往上， $a_3$ :往左， $a_4$ :往下
在这里插入图片描述
那么它在状态 $s_2$ 下选择不同的动作，对游戏的结果会造成不同影响；选择 $a_1$ 会立即触碰蘑菇，agent由大变小；奖励为-50，选择 $a_2$ ，可以躲避蘑菇，并顺便踩死蘑菇，奖励为+100；选择 $a_3$ ，不会立即碰到蘑菇，奖励值为10；选择 $a_4$ ，过一秒就会碰到蘑菇，奖励值为-20。

动作	奖励
$a_1$	-50
$a_2$	+100
$a_3$	10
$a_4$	-20

我们使用q-learning算法，每次选取最有的动作；根据Q-learning的公式我们来填充Q表格
$Q(s_t,a_t) \leftarrow Q(s_t,a_t)+\alpha[r_t+\gamma(Q(s_{t},a_{t+1})-Q(s_t,a_t)]$
并且，这里假设q的初始值为10，下一个状态对应的q值统一为20，假设衰减因子 $\gamma$ 取0.8，学习率 $\alpha$ 取0.6, 则每个动作对应的q值计算如下：

Q(s2,a1) = 10+0.6*[-50+0.8*(20-10)] = -15.2
Q(s2,a2) = 10+0.6*[100+0.8*(20-10)] = 74.8
Q(s2,a3) = 10+0.6*[10+0.8*(20-10)] = 20.8
Q(s2,a4) = 10+0.6*[-20+0.8*(20-10)] = 2.8

q值可以用来评估当前状态 $s_t$ 下，动作 $a_t$ 的好坏。我们将q表格填充如下：

表1 Q表格

	a1	a2	a3	a4
s1	10	10	10	10
s2	-15.2	74.8	20.8	2.8
s3	...	...	...	...

因此，对应Q-learning算法，在状态s2下，我们可以选择q值最大的动作即 $a_2$ ，作为当前的动作。

3.算法过程

sarsa算法的学习过程如下图所示，在两个地方用到q表格，一个是在选择动作的时候，以 $\epsilon$ 的概率去随机选择动作，以 $1-\epsilon$ 的概率利用Q表格，选择价值最大的动作；另一个是在更新Q表格的时候，学习新的Q值
在这里插入图片描述
Q-Learning的学习过程如下图所示

Q现实：采取该动作获得的立即回报以及和下一个状态动作的Q值的加权和（Agent的经历中实际采取该动作后得到的Q值）
Q估计：从Q-Table中获得的当前状态和动作下的Q值（Agent学得的Q-Table中记录的Q值）

q现实为使用 $\epsilon-greedy$ 选择动作所获得的价值，q估计为预计的最高收益。
$r+\gamma maxQ(S_{t+1},a)-Q(S_t,A_t)$
对下一步的衰减的最大估计与当前所得到的奖励当成这一步的现实，减去这一步估计的预期收益，得到选择当前动作的收益（可能为负）。
另外，可以发现Sarsa算法在更新Q表格的时候需要用到下一步的动作A’和下一个状态S’,是一种在线的学习算法；而Q-Learning算法只需要用到下一步的状态，并选择Q值最大的动作， $r+\gamma max_a(Q(S_{t+1},a)$ 为当前状态 $s_t$ 下，使用动作 $a_t$ 的Q值（当前回报+未来的折扣价值），是一种离线学习算法。

4.总结

表3 Sarsa算法和Q-learning算法两者的比较

Sarsa	Q-learning
学习Q表格，指导动作	学习Q表格指导动作
选择动作时，使用 $\epsilon$ -greedy策略，探索和利用相结合	选择动作时，使用Q表格对应最大的Q所对应的动作，是一种贪婪且较激进的方法
在线学习方法，需要用到下一个状态 $s_{t+1}$ 和动作 $a_{t+1}$	离线学习方法，更新Q表格时不需要 $s_{t+1}$