【强化学习入门】四.强化学习中的V值和Q值

北下关吴中生

已于 2022-12-28 20:22:36 修改

阅读量1w

点赞数 35

分类专栏：强化学习文章标签：强化学习人工智能马尔可夫决策过程马尔可夫链

于 2022-06-05 00:57:18 首次发布

本文链接：https://blog.csdn.net/m0_38068876/article/details/125118742

版权

强化学习专栏收录该内容

9 篇文章

订阅专栏

文章目录

1.背景知识
2.V值和Q值的理解
3.V值介绍
4.Q值介绍
5.根据Q值计算V值
6.根据V值计算Q值
7.根据V值计算V值

1.背景知识

在马尔可夫链中：当智能体从一个状态 $s$ ，选择动作 $a$ ，会进入另外一个状态 $s^{'}$ ；同时，也会给智能体奖励 $r$ 。

奖励有正有负。“正” 代表我们鼓励智能体在这个状态下继续这么做；“负” 代表我们并不希望智能体这么做。在强化学习中，我们会用奖励 $r$ 作为智能体学习的引导，期望智能体获得尽可能多的奖励。

但更多的时候，我们并不能单纯地只通过 $r$ 来衡量一个动作的好坏，我们必须用长远的眼光来看待问题。

以考前玩游戏or复习为例：玩游戏会感到快乐，奖励+10；复习会觉得苦闷，奖励-50；考试通过了，心情大好，奖励+100；考试没通过，回家挨训-100。（假设，考前复习一定通过，玩游戏一定不通过），那么：

考前游戏+10，考试没通过-100，最后得到-90的奖励。
考前复习-50，考试通过+100，最后得到+50的奖励。

如果我们单纯地只从当前的一个奖励 $r$ 来衡量一个动作（“游戏”or“复习”）的好坏，那肯定是游戏得到的奖励 $r$ 更多
我们要把未来的奖励也计算到当前状态下，再进行决策。

2.V值和Q值的理解

$V$ 值：评估状态的价值，我们称为 $V$ 值。它代表了智能体在这个状态下，一直到最终状态得到总的奖励的期望。
$Q$ 值：评估动作的价值，我们称为 $Q$ 值。它代表了智能体选择该动作后，一直到最终状态得到总的奖励的期望。

3.V值介绍

$V$ 值定义：评估状态的价值，我们称为 $V$ 值。它代表了智能体在这个状态下，一直到最终状态得到总的奖励的期望。

$V$ 值计算：就是要计算当前状态 $S$ 到最终状态，得到总的奖励的期望值。通俗来说就是：从某个状态，按照策略 $\pi$ ，走到最终状态时，最终获得奖励总和的平均值（奖励期望），就是 $V$ 值。

【举例】 以下图为例，从状态 $s_0$ 开始可以执行两个动作，分别是 $a_1$ 和 $a_2$ 。从状态 $s_0$ 开始，执行动作 $a_1$ ，到最终状态得到的总奖励 $R_1$ 为+10；从状态 $s_0$ 开始，执行动作 $a_2$ ，到最终状态得到的总奖励 $R_2$ 为+20。
在这里插入图片描述

假设1： 在状态 $s_0$ 时，执行动作 $a_1$ 的概率为40%，执行动作 $a_2$ 的概率为60%，那么从状态 $s_0$ 到最后状态时，得到的奖励期望为：

$\begin{aligned} V = \overline{R} &= p(a_1|s_0) \cdot {R_1} + p(a_2|s_0) \cdot {R_2} \\ &= 40\% \cdot 10+60\% \cdot 20 \\ &=16\\ \end{aligned}$

其中， $p(a_1|s_0)$ 是指在状态 $s_0$ 时，选择动作 $a_1$ 的概率； $p(a_2|s_0)$ 是指在状态 $s_0$ 时，选择动作 $a_2$ 的概率。

假设2： 在状态 $s_0$ 时，执行动作 $a_1$ 的概率为50%，执行动作 $a_2$ 的概率为50%。那么从状态 $s_0$ 到最后状态得到的奖励期望 $\overline{R}$ 为：

$\begin{aligned} V = \overline{R} &= p(a_1|s_0) \cdot {R_1} + p(a_2|s_0) \cdot {R_2} \\ &= 50\% \cdot 10+50\% \cdot 20 \\ &=15\\ \end{aligned}$

假设3： 在状态 $s_0$ 时，执行动作 $a_1$ 的概率为60%，执行动作 $a_2$ 的概率为40%。那么从状态 $s_0$ 到最后状态得到的奖励期望 $\overline{R}$ 为：

$\begin{aligned} V = \overline{R} &= p(a_1|s_0) \cdot {R_1} + p(a_2|s_0) \cdot {R_2} \\ &= 60\% \cdot 10+40\% \cdot 20 \\ &=14\\ \end{aligned}$

由上述三个假设可以看到：采取不同的策略 $\pi$ 方案，最终得到的 $V$ 值是不同的！！！也就是说， $V$ 值跟策略 $\pi$ 具有直接关系。

4.Q值介绍

$Q$ 值定义：评估动作的价值，我们称为 $Q$ 值。它代表了智能体选择该动作后，一直到最终状态得到总的奖励的期望。

$Q$ 值计算：就是要计算采取动作 $A$ 之后，到最终状态时，得到总的奖励的期望值。通俗来说就是：从某个动作出发，走到最终状态时，最终获得奖励总和的平均值（奖励期望），就是 $Q$ 值。

注：与V值不同，Q值和策略 $\pi$ 并没有直接关系，而是与环境的状态转移概率有关（环境的状态转移概率是未知的，我们无法学习也无法改变）。

【举例】 以下图为例，采取动作 $a_1$ ，跳转到状态 $s_1$ ，到最终状态时，得到的奖励为+10；跳转到状态 $s_2$ ，到最终状态时，得到的奖励为+20；跳转到状态 $s_3$ ，到最终状态时，得到的奖励为+5；
在这里插入图片描述

$\begin{aligned} Q(s_0) = {\overline R}(s_0) &= p(s_1|s_0,a_1) \cdot {R_1} + p(s_2|s_0,a_1) \cdot {R_2} + p(s_3|s_0,a_1) \cdot {R_3} \\ &= p(s_1|s_0,a_1) \cdot {10} + p(s_2|s_0,a_1) \cdot {20} + p(s_3|s_0,a_1) \cdot {5} \\ \end{aligned}$

其中，
$p(s_1|s_0,a_1)$ 是指在状态 $s_0$ 时，选择动作 $a_1$ 后跳转到状态 $s_1$ 的概率；
$p(s_2|s_0,a_1)$ 是指在状态 $s_0$ 时，选择动作 $a_1$ 后跳转到状态 $s_2$ 的概率；
$p(s_3|s_0,a_1)$ 是指在状态 $s_0$ 时，选择动作 $a_1$ 后跳转到状态 $s_3$ 的概率。

注意：状态转移概率 $p(s_1|s_0,a_1)$ 、 $p(s_2|s_0,a_1)$ 、 $p(s_3|s_0,a_1)$ 是系统决定的，我们无法学习也无法改变。

5.根据Q值计算V值

$V$ 值代表了智能体在这个状态下，一直到最终状态得到总的奖励的期望。一个状态的 $V$ 值，就是这个状态下的所有动作的 $Q$ 值，在策略 $\pi$ 下的期望。
在这里插入图片描述

$\begin{aligned} V_\pi(s_0)&= p(a_1|s_0) \cdot q(s_0,a_1) + p(a_2|s_0) \cdot q(s_0,a_2) \\ &= \sum\limits_{a\in A} \pi(a|s_0) \cdot q_{\pi}(s_0, a) \end{aligned}$

其中，
$p(a_1|s_0)$ 是指在状态 $s_0$ 下选择动作 $a_1$ 的概率；
$q(s_0,a_1)$ 是指在状态 $s_0$ 下选择动作 $a_1$ 后的 $Q$ 值（获得的奖励期望）；
$p(a_2|s_0)$ 是指在状态 $s_0$ 下选择动作 $a_2$ 的概率；
$q(s_0,a_2)$ 是指在状态 $s_0$ 下选择动作 $a_2$ 后的 $Q$ 值（获得的奖励期望）；
$\pi(a|s_0)$ 是指策略 $\pi$ 在状态 $s_0$ 时采取某个动作 $a\in A,A=(a_1, a_2, a_3, …, a_n)$ 的概率；
$q_{\pi}(s_0, a)$ 是指在状态 $s_0$ 时，采取某个动作 $a\in A,A=(a_1, a_2, a_3, …, a_n)$ 对应的 $Q$ 值（获得的奖励期望）。

6.根据V值计算Q值

定义 $q_\pi(s_0, a_1)$ 为某个状态 $s_0$ 时，根据策略 $\pi$ 采取动作 $a_1$ 的 $Q$ 值。
在这里插入图片描述

$\begin{aligned} q_\pi(s_0, a_1) &= [p(s_1|s_0,a_1) \cdot v_\pi(s_1) + r_1] + [p(s_2|s_0,a_1) \cdot v_\pi(s_2) + r_2] + [p(s_3|s_0,a_1) \cdot v_\pi(s_3) + r_3]\\ &=[ r_1+r_2+r_3] + P(s'|s_0, a_1) \cdot v_{\pi}(s')\\ &=R_{s_0}^{a_1} + \gamma \sum\limits_{s'} P_{{s_0}s'}^{a_1} \cdot v_\pi(s')\\ \end{aligned}$

其中，
$R_{s_0}^{a_1}$ 是指在状态 $s_0$ 时，采取动作 $a_1$ 跳转到新状态得到的奖励；
$\gamma$ 是折扣因子；
$P_{{s_0}s'}^{a_1}$ 是指在状态 $s_0$ 时，采取动作 $a_1$ ，跳转到新状态 $s^{'}$ 的状态转移概率；
$v_\pi(s')$ 是指跳转到的新状态 $s^{'}$ 的 $V$ 值。

7.根据V值计算V值

更多的时候，我们需要根据 $V$ 值来计算 $V$ 值。准确的说，是根据后面状态 $s^{'}$ 的 $V$ 值来计算前面状态 $s$ 的 $V$ 值。

已知：
$\begin{aligned} V_\pi(s_0)&= p(a_1|s_0) \cdot q(s_0,a_1) + p(a_2|s_0) \cdot q(s_0,a_2) \\ &= \sum\limits_{a\in A} \pi(a|s_0) \cdot q_{\pi}(s_0, a) \\ \end{aligned}$

所以：
$\begin{aligned} V_\pi(s)&= \sum\limits_{a\in A} \pi(a|s) \cdot[ R_{s}^a + \gamma\sum\limits_{s'\in S} P_{ss'}^{a} \cdot v_\pi(s') ] \\ \end{aligned}$