强化学习——马尔可夫过程的理解

在这里插入图片描述

一、马尔可夫过程

1.随机过程

  随机过程是概率论的“动态”版本。普通概率论研究的是固定不变的随机现象,而随机过程则专注于那些随时间不断变化的情况,比如天气怎样变化或者城市的交通如何流动。在随机过程中,我们把某一时刻发生的事情视为一组可能结果的集合,并且这些结果随时间不断变化。

  这个过程的特点是,一个时间点的情况往往会受到前一个时间点情况的影响。例如,如果我们知道现在的天气状况,我们就可以预测接下来天气变化的可能性。随机过程就是这样一种工具,帮助我们理解和预测那些随时间变化的复杂情况。

2.马尔可夫性质

  马尔可夫性质是一种特殊的规则,用于描述一些随机过程,例如天气变化或股市波动。这个规则的核心是:在这种过程中,下一步会发生什么,只取决于现在的状态,而和之前发生的事情无关。

  举个例子,如果你在玩一个掷骰子的游戏,那么下一次掷出什么数字只取决于你这一次掷的结果,和之前的掷骰子结果没有关系。这就是马尔可夫性质的一个简单应用。

虽  然看起来像是我们不用管历史,但实际上,现在的状态是由过去的状态一步步演变而来的。所以,通过现在的状态,我们其实间接地获得了历史的信息。这就像是只需要看最新的新闻标题,而不必去读整篇文章,你就能知道发生了什么事。

  这种性质让分析和预测变得更简单,因为你只需要关注现在,就能有理由推测未来会发生什么。马尔可夫性质在科学和工程中非常有用,因为它帮助我们用简洁的方式处理复杂的信息。

3.马尔可夫过程

  马尔可夫过程,又称为马尔可夫链,是一种特殊的随机过程,其核心特性是未来的状态仅由当前的状态决定,而不受之前状态的影响。我们通常用一个包含两个元素的组合 < S , P > <S, P> <S,P> 来描述马尔可夫过程: S S S 是有限的状态集合, P P P 是状态转移矩阵。

  状态集合就是该过程可能达到的所有不同状态。状态转移矩阵则是一个表格,记录了从任一状态转移到另一状态的概率。比如,如果一个过程有 n n n 个状态,此时 S = S= S={ s 1 , s 2 , . . . , s n s_{1},s_{2},...,s_{n} s1,s2,...,sn},状态转移矩阵 P P P 就会是一个 n × n n×n n×n 的表格,表中的每个数字表示从一行的状态转到一列状态的概率,即:

P = [ P ( s 1 ∣ s 1 ) ⋯ P ( s n ∣ s 1 ) ⋮ ⋱ ⋮ P ( s 1 ∣ s n ) ⋯ P ( s n ∣ s n ) ] P=\begin{bmatrix} P(s_{1}|s_{1}) & \cdots & P(s_{n}|s_{1}) \\ \vdots & \ddots & \vdots \\ P(s_{1}|s_{n}) & \cdots & P(s_{n}|s_{n}) \end{bmatrix} P= P(s1s1)P(s1sn)P(sns1)P(snsn)

  矩阵 P P P 中第 i i i 行第 j j j 列元素 P ( s j ∣ s i ) = P ( S t + 1 = s j ∣ S t = s i ) P(s_{j}|s_{i}) =P(S_{t+1}=s_{j}|S_{t}=s_{i}) P(sjsi)=P(St+1=sjSt=si),表示从状态 s i s_{i} si 转移到状态 s j s_{j} sj 的概率。从某个状态出发,到达其他状态的概率和必须为 1,即状态转移矩阵的每一行的和为 1。

  简单来说,马尔可夫过程就像是一个决策地图,指导你如何根据当前位置预测下一步的位置。每一步的决策只依赖于你现在所在的“地点”,而与你之前的路径无关。这种性质使得马尔可夫过程在预测和决策制定中非常有用,尤其是在那些变化快速且需要即时反应的场景中。

4.马尔可夫过程示例

在这里插入图片描述

图1 马尔可夫过程示例

  图1展示了一个包含6个状态的简单马尔可夫过程。图中的每个绿色圆圈代表一个状态,每个状态都可以按照一定的概率(包括零概率)转移到其他状态。特别的,状态 s 6 s_{6} s6 通常被称为终止状态,因为它不再转移到其他状态,而是永远以1.0的概率转移到自己。

  状态之间的转移通过虚线箭头表示,箭头旁边的数字显示了转移发生的概率。对于每个状态,从它出发到其他状态的转移概率之和必须等于1。例如,状态 s 1 s_{1} s1 有90%的概率保持在当前状态,10%的概率转移到另一个特定状态 s 2 s_{2} s2。状态 s 2 s_{2} s2有50%的概率返回先前的状态 s 1 s_{1} s1,有50%的概率前往另一个新状态 s 3 s_{3} s3

  这个马尔可夫过程的状态转移矩阵:

P = [ 0.9 0.1 0 0 0 0 0.5 0 0.5 0 0 0 0 0 0 0.6 0 0.4 0 0 0 0 0.3 0.7 0 0.2 0.3 0.5 0 0 0 0 0 0 0 1 ] P=\begin{bmatrix} 0.9 & 0.1 &0 &0 &0 &0 \\ 0.5 & 0 & 0.5 & 0 & 0 & 0\\ 0 & 0 & 0 & 0.6 & 0 & 0.4\\ 0 & 0 & 0 & 0 & 0.3 & 0.7\\ 0 & 0.2 & 0.3 & 0.5 & 0 & 0\\ 0 & 0 & 0 & 0 & 0 & 1 \end{bmatrix} P= 0.90.500000.10000.2000.5000.30000.600.500000.300000.40.701

  给定一个马尔可夫过程后,我们可以从某个特定的初始状态出发,按照状态转移矩阵中规定的概率,逐步生成一个状态序列。这个过程被称为采样。通过采样,我们能够模拟出从一个初始状态开始,状态如何随机地转移和变化,形成一系列连续事件,这有助于我们理解和预测该马尔可夫过程的行为特征。例如,从 s 1 s_{1} s1 出发,可以生成序列 s 1 → s 2 → s 3 → s 6 s_{1} \to s_{2} \to s_{3} \to s_{6} s1s2s3s6 或序列 s 1 → s 1 → s 2 → s 3 → s 4 → s 5 → s 3 → s 6 s_{1} \to s_{1} \to s_{2} \to s_{3} \to s_{4} \to s_{5} \to s_{3} \to s_{6} s1s1s2s3s4s5s3s6

参考文献

[1] 动手学强化学习

[2] 强化学习(Reinforcement Learning)

  • 11
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

晓shuo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值