马尔可夫链与马尔可夫决策过程

我不是zzy1231A

已于 2022-02-16 08:43:46 修改

阅读量801

点赞数 1

分类专栏：强化学习文章标签：人工智能概率论强化学习离散时间马尔可夫链

于 2022-01-22 18:29:53 首次发布

原文链接：https://zhuanlan.zhihu.com/p/25319023；https://blog.csdn.net/lucky_kai/article/details/97394778?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522164284643916780271938220%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=16428

版权

强化学习专栏收录该内容

10 篇文章 9 订阅

订阅专栏

马尔可夫链

简介

马尔可夫链（Markov chain），又称离散时间马尔可夫链（discrete-time Markov chain）为状态空间中经过从一个状态到另一个状态的转换的随机过程。

该过程要求具备“无记忆”的性质：下一状态的概率分布只能由当前状态决定，在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马尔可夫性质。

在马尔可夫链的每一步，系统根据概率分布，可以从一个状态变到另一个状态，也可以保持当前状态。状态的改变叫做转移，与不同的状态改变相关的概率叫做转移概率。

随机漫步就是马尔可夫链的例子。随机漫步中每一步的状态是在图形中的点，每一步可以移动到任何一个相邻的点，在这里移动到每一个点的概率都是相同的（无论之前漫步路径是如何的）。【维基百科】

马尔可夫链的数学表示为：
P ( x t + 1 ∣ ⋯ , x t − 2 , x t − 1 , x t ) = P ( x t + 1 ∣ x t ) P\left(x_{t+1} | \cdots, x_{t-2}, x_{t-1}, x_{t}\right)=P\left(x_{t+1} | x_{t}\right)P(x t+1 ∣⋯,x t−2 ,x t−1 ,x t )=P(x t+1 ∣x t )
既然某一时刻状态转移的概率只依赖前一个状态，那么只要求出系统中任意两个状态之间的转移概率，这个马尔科夫链的模型就定了。

马尔可夫链性质

马尔可夫链的收敛性
如果确定了马尔科夫链模型的状态转移矩阵P，假设初始状态s=[0.2,0.2,0.6]，那么在这样的初始状态下，按照P转移n次，最终都会收敛于一个特定的数，上例最终收敛于[0.624,0.312,0.064]，则第一种事件发生的可能性最大。在排名算法中，则是，该网页的权重更大排名更靠前。

收敛性需要满足的条件
1.可能的状态数是有限的。
2.状态间的转移概率需要固定不变。
3.从任意状态能够转变到任意状态。
4.不能是简单的循环，例如全是从x到y再从y到x。

马尔可夫链是否可约
如果一个马尔可夫链可以从任何其他状态到达任何状态（不一定是在一个时间步内），那么它是不可约的。如果状态空间是有限的，并且链可以用图表示，那么我们可以说不可约马尔可夫链的图是强连通的（图论）。
在这里插入图片描述
左边的链是可约的：从3到4我们不能到达1或2。右边的链（添加了一条边）是不可约的：每个状态都可以从任何其他状态到达。

马尔可夫链重现性
若马尔可夫链在到达一个状态后，在演变中能反复回到该状态，则该状态具有重现性或复发性，或该马尔可夫链具有（局部）重现性，反之则具有瞬变性或短暂性

马尔可夫链的讲解视频，不是本人做的可以学习一下。https://www.bilibili.com/video/BV19b4y127oZ?from=search&seid=16939363893852532400&spm_id_from=333.337.0.0

马尔可夫决策过程

MDPs 简单说就是一个智能体（Agent）采取行动（Action）从而改变自己的状态（State）获得奖励（Reward）与环境（Environment）发生交互的循环过程。

MDP 的策略完全取决于当前状态（Only present matters），这也是它马尔可夫性质的体现。

其可以简单表示为：
在这里插入图片描述

基本概念

在这里插入图片描述

回报

在这里插入图片描述

MDP 求解

我们需要找到最优的策略使未来回报最大化，求解过程大致可分为两步,具体内容会在后面展开

预测：给定策略，评估相应的状态价值函数和状态-动作价值函数
行动：根据价值函数得到当前状态对应的最优动作
在这里插入图片描述

v 描述了处于一个状态的长期最优化价值，即在这个状态下考虑到所有可能发生的后续动作，并且都挑选最优的动作来执行的情况下，这个状态的价值
q 描述了处于一个状态并执行某个动作后所带来的长期最优价值，即在这个状态下执行某一特定动作后，考虑再之后所有可能处于的状态并且在这些状态下总是选取最优动作来执行所带来的长期价值
在这里插入图片描述

参考资料
强化学习（Reinforcement Learning）知识整理 - 我勒个矗的文章 - 知乎
https://zhuanlan.zhihu.com/p/25319023
https://blog.csdn.net/lucky_kai/article/details/97394778

人工智能学习笔记二之马尔可夫链与马尔可夫决策过程

我不是zzy1231A

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
马尔可夫链与马尔可夫决策过程

马尔可夫链简介马尔可夫链（Markov chain），又称离散时间马尔可夫链（discrete-time Markov chain）为状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备“无记忆”的性质：下一状态的概率分布只能由当前状态决定，在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马尔可夫性质。在马尔可夫链的每一步，系统根据概率分布，可以从一个状态变到另一个状态，也可以保持当前状态。状态的改变叫做转移，与不同的状态改变相关的概率叫做转移概率。随机漫步就是马
复制链接

扫一扫

专栏目录