强化学习-马尔可夫模型

马尔可夫相关模型与概念详解

最新推荐文章于 2025-07-10 10:05:09 发布

原创

最新推荐文章于 2025-07-10 10:05:09 发布 · 7.5k 阅读

93 ·

CC 4.0 BY-SA版权

文章标签：

#概率论 #算法 #机器学习 #强化学习 #马尔可夫

本文从马尔可夫概念入手，介绍了马尔可夫模型的基本概念，包括马尔可夫性和马尔可夫过程。详细讲解了马尔可夫链、隐马尔可夫模型、马尔可夫决策过程和马尔可夫随机场的定义、特点和应用，并通过具体例子进行说明，如餐厅供应、网格世界机器人等。

文章目录

前言
一、基本概念
二、马尔科夫链（Markov Chain）
三、隐马尔可夫模型（Hidden Markov Model，HMM）
四、马尔可夫决策过程（Markov Decision Process，MDP）
- 马尔可夫决策过程具体定义如下：
五、马尔可夫随机场（Markov Random Field，MRF）

前言

前文提到了强化学习源自马尔可夫决策过程，本文从马尔可夫概念入手，讲解和马尔可夫有关的模型和概念。

一、基本概念

马尔科夫模型是一个很大的概念，从模型的定义和性质来看，具有马尔科夫性质、并以随机过程为基础模型的随机过程/随机模型被统称为马尔科夫模型，其中就包含我们悉知的马尔科夫链、马尔科夫决策过程、隐马尔科夫链（HMM）和马尔科夫随机场等随机过程/随机模型。

一个随机过程中，在已知它所处的状态的条件下，它未来的演变不依赖于它以往的演变。这种已知“现在”的条件下，“将来”与“过去”独立的特性称为马尔可夫性（Markov Property），具有这种性质的随机过程叫做马尔可夫过程（Markov Process）。

举例来说，青蛙在荷花池里跳跃的过程中，青蛙依照它瞬间的念头从一片荷叶上跳到另一片荷叶上，因为青蛙是没有记忆的，当所处的位置已知时，它下一步跳往何处和它以往走过的路径无关。因此，后续的演变不依赖于以往的演变，则该过程即为马尔可夫过程。该过程仅依赖当前时刻状态，又称为1阶马尔科夫过程，很容易将定义拓展的多阶的情况。

n阶马尔科夫过程是状态间的转移仅依赖于前n个状态的随机过程。这个过程被称之为n阶马尔科夫模型，其中n是影响下一个状态选择的（前）n个状态，气象预报就可以是一个n阶马尔科夫过程。

二、马尔科夫链（Markov Chain）

马尔可夫链 是具有马尔可夫性质的随机变量的一个数列，即描述了一种状态序列，其每个状态值取决于前面有限个状态。下面讲述马尔可夫链的相关概念：

马尔可夫性质（Markov Property）：马尔可夫链的关键特征是马尔可夫性质，即系统在任意时间 n+1 的状态仅依赖于时间 n 的状态，而与之前的状态历史无关。这可以用以下数学表示： $P(X_{n+1}=x∣X_0,X_1…,X_n)=P(X_{t+1}=X∣X_n)$ 。
状态空间（State Space）：状态空间是马尔可夫链可能的状态集合，通常用 $S$ 表示。状态可以是离散的（如有限状态空间）或连续的（如状态可以取任意实数值）。
状态转移矩阵（Transition Matrix）：状态转移矩阵用于描述状态之间的转移概率。对于有限状态空间的马尔可夫链，状态转移矩阵是一个方阵，其元素 P(i, j) 表示从状态 i 转移到状态 j 的概率。
平稳分布（Stationary Distribution）：在某些情况下，马尔可夫链可能具有平稳分布，这是一个稳定的状态分布，不会随时间变化。平稳分布可以用来描述系统在长期运行后的状态分布。
初始概率分布：包含每个状态的初始概率。

以随机餐厅举例

假设有那么一个餐厅，其食品供应符合马尔科夫性质，每天只供应3个菜其中的一种,明天供应什么取决于今天供应了什么（一阶马尔可夫过程）
在这里插入图片描述
上图就是一个链的标记，其中的方向概率(准确说是频率)是来自大量数据记录统计

求解过程：披萨->汉堡->披萨->?，可以很容易得出

P(X4=热狗|X1=披萨，X2=汉堡，X3=披萨) = P(X4=热狗|X3=披萨) = 0.7

P(X4=汉堡|X1=披萨，X2=汉堡，X3=披萨) = P(X4=汉堡|X3=披萨) = 0.3

状态转移矩阵如下：
在这里插入图片描述
假设第一轮选择比萨，则初始概率分布为 $\pi_0 = [0 \, 1 \, 0]$ ,迭代计算如下：

…

求解如下方程，即可得到平稳分布（可以理解为收敛）
在这里插入图片描述

上述矩阵乘法可转化为求下列方程的解：

$\begin{cases} 0.2a + 0.3b + 0.5c = a \\ 0.6a=b \\ 0.2a+0.7b+0.5c=c \\ a + b + c = 1 \end{cases}$
解为 $\,\,\,\,\,\, 0.21127 \,\,\,\,\,\, 0.43662]$ ，即为初始状态为披萨的平稳分布。