强化学习（1）马尔科夫决策过程(MDP)

最新推荐文章于 2024-08-08 17:29:44 发布

#妖言惑众

最新推荐文章于 2024-08-08 17:29:44 发布

阅读量1.6k

点赞数 5

分类专栏：强化学习文章标签：强化学习马尔科夫决策过程

本文链接：https://blog.csdn.net/weixin_43316082/article/details/89602271

版权

强化学习专栏收录该内容

4 篇文章 1 订阅

订阅专栏

强化学习

开始强化学习之前先来了解强化学习、深度学习、深度强化学习、监督学习、无监督学习、机器学习和人工智能之间的关系。如下图：
在这里插入图片描述
强化学习是机器学习的一个重要分支，它试图解决决策优化的问题。所谓决策优化，是指面对特定状态（Stata，S），采取什么行动方案（Action，A），才能使收益最大（Reward，R）。

强化学习的基本原理
在这里插入图片描述
智能体在执行某项任务时，首先通过动作A与周围环境进行交互，在动作A和环境的作用下，智能体会产生新的状态，同时环境会给出一个立即回报。如此循环下去，智能体与环境进行不断地交互从而产生很多数据。强化学习算法利用产生的数据修改自身的动作策略，再与环境交互，产生新的数据，并利用新的数据进一步改善自身的行为，经过数次迭代学习后，智能体能最终地学到完成相应任务的最优动作（最优策略）。

最简单的强化学习的数学模型，是马尔科夫决策过程(Markov Decision Process)，简称MDP。文章主要讲如何利用马尔科夫决策过程对强化学习建模。

先介绍一些相关概念：
马尔科夫性
马尔科夫性是指系统的下一个状态 $s_{t+1}$ 仅与当前状态 $s_t$ 有关，而与以前的状态无关。
定义：状态 $s_t$ 是马尔科夫的，当且仅当 $P\left[s_{t+1}|s_t\right]=P\left[s_{t+1}|s_1,\cdots ,s_t\right]$ 。
定义中可以看到，当前状态 $s_t$ 其实是蕴含了所有相关的历史信息 $s_1,\cdots ,s_t$ ，一旦当前状态已知，历史信息将会被抛弃。

马尔科夫过程
马尔科夫过程的定义：马尔科夫过程是一个二元组 $\left(S,P\right)$ ，且满足： $S$ 是有限状态集合， $P$ 是状态转移概率。状态转移概率矩阵为：

$P=\left[\begin{matrix} P_{11}& \cdots& P_{1n}\\ \vdots& \vdots& \vdots\\ P_{n1}& \cdots& P_{nn}\\ \end{matrix}\right]$ 。

马尔科夫决策过程
马尔科夫决策过程由元组 $\left(S,A,P,R,\gamma\right)$ 描述，其中：
$S$ 为有限的状态集
$A$ 为有限的动作集
$P$ 为状态转移概率
$R$ 为回报函数
$\gamma$ 为折扣因子，用来计算累积回报。
注意，跟马尔科夫过程不同的是，马尔科夫决策过程的状态转移概率是包含动作的即： $P_{ss'}^{a}=P\left[S_{t+1}=s'|S_t=s,A_t=a\right]$

强化学习的目标是给定一个马尔科夫决策过程，寻找最优策略。所谓策略是指状态到动作的映射，策略常用符号 $\pi$ 表示，它是指给定状态 $s$ 时，动作集上的一个分布，即

$\pi\left(a|s\right)=p\left[A_t=a|S_t=s\right]$

公式的含义是：策略 $\pi$ 在每个状态 $s$ 指定一个动作概率。如果给出的策略 $\pi$ 是确定性的，那么策略 $\pi$ 在每个状态 $s$ 指定一个确定的动作。

当给定一个策略 $\pi$ 时，我们就可以计算累积回报。首先定义累积回报：

$G_t=R_{t+1}+\gamma R_{t+2}+\cdots =\sum_{k=0}^{\infty}{\gamma^kR_{t+k+1}}$

当给定策略 $\pi$ 时，假设从状态 $s_1$ 出发，状态序列可能为：

$s_1\rightarrow s_2\rightarrow s_3\rightarrow s_4\rightarrow s_5 ;\\ s_1\rightarrow s_2\rightarrow s_3\rightarrow s_5 \\ ......$
即当给定策略 $\pi$ 时，会有多个状态序列，累计回报 $G_1$ 有多个可能值。
为了评价状态 $s_1$ 的价值，我们需要定义一个确定量来描述状态 $s_1$ 的价值，很自然的想法是利用累积回报来衡量状态 $s_1$ 的价值。然而，累积回报 $G_1$ 是个随机变量，不是一个确定值，因此无法进行描述。但其期望是个确定值，可以作为状态值函数的定义。

状态值函数与状态-行为值函数
当智能体采用策略 $\pi$ 时，累积回报服从一个分布，累积回报在状态 $s$ 处的期望值定义为状态-值函数：

$\upsilon_{\pi}\left(s\right)=E_{\pi}\left[\sum_{k=0}^{\infty}{\gamma^kR_{t+k+1}|S_t=s}\right]$

相应地，状态-行为值函数：

$q_{\pi}\left(s,a\right)=E_{\pi}\left[\sum_{k=0}^{\infty}{\gamma^kR_{t+k+1}|S_t=s,A_t=a}\right]$

状态值函数与状态-行为值函数的贝尔曼方程
在这里我们直接给出贝尔曼方程，具体数学推导见文末。

$v_{\pi}(s)=\mathbb{E}_{\pi}\left(R_{t+1}+\gamma v_{\pi}\left(S_{t+1}\right) | S_{t}=s\right)$ （1.1）
$q_{\pi}(s, a)=\mathbb{E}_{\pi}\left(R_{t+1}+\gamma q_{\pi}\left(S_{t+1}, A_{t+1}\right) | S_{t}=s, A_{t}=a\right)$

状态值函数与状态-行为值函数的递推关系
在这里插入图片描述
图B计算公式为

$\upsilon_{\pi}\left(s\right)=\sum_{a\in A}{\pi\left(a|s\right)q_{\pi}\left(s,a\right)}\left(1.2\right)$

也就是说，状态值函数是所有状态-行为值函数基于策略 $π$ 的期望。通俗说就是某状态下所有状态-行为值乘以该动作出现的概率，最后求和，就得到了对应的状态价值。

图C计算状态-行为值函数为：

$q_{\pi}\left(s,a\right)=R_{s}^{a}+\gamma\sum_{s'}{P_{ss'}^{a}}\upsilon_{\pi}\left(s'\right)\left(1.3\right)$

将(1.3)式带入到(1.2)式可以得到状态值函数：

$\upsilon_{\pi}\left(s\right)=\sum_{a\in A}{\pi\left(a|s\right)\left(R_{s}^{a}+\gamma\sum_{s'\in S}{P_{ss'}^{a}\upsilon_{\pi}\left(s'\right)}\right)}$ (1.4)
在这里插入图片描述
在C中

$\upsilon_{\pi}\left(s'\right)=\sum_{a'\in A}{\pi\left(a'|s'\right)q_{\pi}\left(s',a'\right)}\left(1.5\right)$

将(1.5)带入到(1.3)中，得到行为状态-行为值函数：

$q_{\pi}\left(s,a\right)=R_{s}^{a}+\gamma\sum_{s'\in S}{P_{ss'}^{a}\sum_{a'\in A}{\pi\left(a'|s'\right)q_{\pi}\left(s',a'\right)}}$ (1.6)

最优价值函数
计算状态值函数的目的是为了构建学习算法从数据中得到最优策略。每个策略对应着一个状态值函数，最优策略自然对应着最优状态值函数。

定义：最优状态值函数 $\upsilon^*\left(s\right)$ ,为在所有策略中值最大的值函数即：
$\upsilon^*\left(s\right)=\max_{\pi}\upsilon_{\pi}\left(s\right)$
最优状态-行为值函数 $q^*\left(s,a\right)$ 为在所有策略中最大的状态-行为值函数，即：
$q^*\left(s,a\right)=\max_{\pi}q_{\pi}\left(s,a\right)$

我们由(1.4)式和(1.6)式分别得到最优状态值函数和最优状态-行动值函数的贝尔曼最优方程：

$\upsilon^*\left(s\right)=\max_aR_{s}^{a}+\gamma\sum_{s'\in S}{P_{ss'}^{a}\upsilon^*\left(s'\right)}$

$q^*\left(s,a\right)=R_{s}^{a}+\gamma\sum_{s'\in S}{P_{ss'}^{a}\max_{a'}q^*\left(s',a'\right)}$

若已知最优状态-动作值函数，最优策略可通过直接最大化 $q^*\left(s,a\right)$ 来决定。

$\pi_{*}(a | s)=\left\{\begin{array}{ll}{1} & {\text { if } a=\arg \max _{a \in A} q_{*}(s, a)} \\ {0} & {\text { else }}\end{array}\right.$

数学推导
（1.1）
$\upsilon\left(s\right)=E\left[G_t|S_t=s\right] \\ =E\left[R_{t+1}+\gamma R_{t+2}+\cdots |S_t=s\right] \\ =E\left[R_{t+1}+\gamma\left(R_{t+2}+\gamma R_{t+3}+\cdots\right)|S_t=s\right] \\ =E\left[R_{t+1}+\gamma G_{t+1}|S_t=s\right] \\ =E\left[R_{t+1}+\gamma\upsilon\left(S_{t+1}\right)|S_t=s\right]$