【详解+推导！！】马尔可夫决策过程

置顶 Glen 997

已于 2024-08-23 11:15:50 修改

阅读量3.6w

点赞数 88

分类专栏：强化学习文章标签：马尔科夫决策过程马尔科夫链强化学习 mdp

于 2021-03-20 14:54:51 首次发布

本文链接：https://blog.csdn.net/qq_33302004/article/details/115027798

版权

15 篇文章

订阅专栏

本文深入探讨了马尔可夫决策过程（MDP）的基础概念，包括马尔可夫性、随机过程、马尔可夫过程和马尔可夫决策过程。MDP是强化学习的核心，描述了智能体与环境交互的数学模型。文章还介绍了策略与累计回报，以及值函数的定义和两者的关系，旨在帮助读者理解强化学习算法的工作原理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

马尔可夫决策过程， Markov Decision Process, MDP

一、为什么需要马尔可夫决策过程？

在这里插入图片描述
上图所展示的是强化学习的基本框架，描述的是智能体（Agent）与环境（Environment）交互的过程，在训练过程中，大致过程如下：

马尔可夫决策过程就是通过数学方式描述上述的过程，是强化学习的基础和核心。

马尔可夫性是指系统的下一个状态 $S_{t+1}$ 仅与当前状态 $S_t$ 有关，而与之前的状态无关；
马尔可夫性描述的是每一个状态的性质；
可以这样理解， $S_t$ 包含了之前全部状态 $S_1$ ， $S_2$ ，…， $S_{t-1}$ 的全部信息，只要知道 $S_t$ ，之前的历史信息就可以抛弃了；

已知马尔可夫决策过程 $\gamma)$ ，我们可以设定各种各样的策略 $\pi$ ，而强化学习的目标就是从众多的策略中选择回报最大的策略，为了评价每种策略 $\pi$ 的回报值，定义了累计回报。
给定策略 $\pi$ ，从状态 $s_1$ 出发可能产生若干马尔可夫链,如：“ $s_1 - s_2 - s_3 -s_4 - s_5$ ”，或者“ $s_1 - s_2 - s_3 - s_5$ ”，针对某一条确定的马尔可夫链，我们可以计算该链的累计回报：
$G_1 = R_{t+1} + \gamma R_{t+2} + {\gamma}^2R_{t+3} = \sum_{k=0}^\infty \gamma^kR_{t+k+1}$
但是由于策略 $\pi$ 具有随机性，所以对于某一个状态 $s$ 我们可以画出无限多条马尔可夫链，也就可以计算出无限多个累计回报 $G_1$ ；
为了评价某一个状态 $s$ 的回报价值，我们将状态 $s$ 的累计回报的期望作为评价指标，称为值函数。

当智能体针对一个已知的马尔科夫决策过程，采用了策略 $\pi$ ，那么将累积回报在状态 $s$ 处的期望值定义为“状态-值函数”：
$\begin{aligned} \nu(s) &= E_\pi \left[ \sum_{k=0}^\infty \gamma^kR_{t+k+1} | S_t=s \right] \\ &= E_\pi \left[ R_{t+1} + \gamma \nu(S_{t+1}) | S_t=s \right] \tag{1} \end{aligned}$
将累计回报在状态 $s$ 处采取了行为 $a$ 的期望定义为“状态-行为值函数”：
$\begin{aligned} q_\pi(s,a) &= E_\pi \left[ \sum_{k=0}^\infty \gamma^kR_{t+k+1} | S_t=s, A_t=a \right] \\ &= E_\pi \left[ R_{t+1} + \gamma \nu(S_{t+1}) | S_t=s, A_t=a\right] \tag{2} \end{aligned}$

在这里插入图片描述

二者关系的推导：
- 如图2.5B所示， $s$ 处的状态值函数等于策略 $\pi$ 在状态 $s$ 下，选择每一种行为 $a$ 的概率 $\pi(a|s)$ 与 $(s, a)$ 处的状态-行为值函数 $q_\pi(s,a)$ 的乘积的累加，数学形式如下：
  $\nu_\pi(s) = \sum_{a\in A} \pi(a|s) q_\pi(s,a) \tag{3}$
- 如图2.5C所示， $(s, a)$ 处的状态-行为值函数，等于该处的反馈 $R_s^a$ 加上，折扣因子乘以，每种状态 $s^{'}$ 的概率 $P_{ss'}^a$ 乘上状态 $s^{'}$ 处的状态值函数 $\nu_\pi(s')$ 的累加，数学形式如下：
  $q_\pi(s,a) = R_s^a + \gamma\sum_{s' \in S}P_{ss'}^a\nu_\pi(s') \tag{4}$
公式(1)的推导：
- 将公式(4)带入公式(3)得到：
  $\nu_\pi(s) = \sum_{a\in A} \pi(a|s) \left( R_s^a + \gamma\sum_{s' \in S}P_{ss'}^a\nu_\pi(s') \right)$
公式(2)的推导：
- 如上图C所示，将 $S = s^{'}$ 带入公式(3)可得：
  $\nu_\pi(s') = \sum_{a'\in A} \pi(a'|s') q_\pi(s',a') \tag{5}$
- 将公式(5)带入公式(4)可得：
  $q_\pi(s,a) = R_s^a + \gamma\sum_{s' \in S}P_{ss'}^a\sum_{a'\in A} \pi(a'|s') q_\pi(s', a')$
举个例子
- 如上图所示， $s_4$ 的状态值函数 $\nu(s_4)=7.4$ 计算过程如下：
  $\begin{aligned} \nu(s_4) &= 0.5*10 + 0.5*(1+0.2*(-1.3)+0.4*(2.7)+0.4*7.4) \\ &= 7.39\approx7.4 \end{aligned}$

定义一个离散时间、有限范围内的折扣马尔科夫决策过程： $\rho_0, \gamma, T)$ ，其中 $r$ 为立即回报函数， $\rho_0$ 为初始状态分布， $T$ 为水平范围（步数限制，正因此如此叫做折扣）；
定义 $\tau$ 为一个轨迹序列， $\tau = (s_0, a_0, s_1, a_1, ...)$ ；
$\tau$ 的累计回报为 $R=\sum_{t=0}T\gamma^tr_t$ ；
而强化学习算法的目标就是找到一个策略 $\pi$ ，最大化累计回报，也就是：
$\pi = \argmax_\pi \int {R(\tau)p_\pi(\tau)} d\tau$