强化学习之马尔科夫过程与马尔科夫链(附py代码,因为是自己打的,没完成的功能慢慢打)

本文详细介绍了马尔科夫过程的基本概念,包括马尔可夫性、马尔科夫链的分类、转移概率及其矩阵、遍历性与平稳分布。此外,探讨了马氏链的状态分布,如到达、相通、状态分类,并提供了初步的Python实现。尽管内容不完整,但鼓励读者通过交流和学习来补充和完善。
摘要由CSDN通过智能技术生成

1.马尔可夫过程

1.1马尔可夫性或无后效性

马尔可夫过程最显著的特点是:如果在已知目前过程状态的条件下,过程未来的演变不依赖于它以往的演变
即当随机过程时刻 ti 的状态已知的情况下,过程在t >ti所处的状态与过程在时刻 ti 以前的状态无关,而仅与过程在t时刻的状态有关。
在这里插入图片描述
如果X(t)满足了这个条件,则X(t)满足马尔可夫性

1.2马尔科夫过程的分类

在这里插入图片描述

2.马尔科夫链的转移概率及性质

2.1转移概率

在这里插入图片描述
在这里插入图片描述

2.2转移概率矩阵

在这里插入图片描述
同理可得n步转移概率矩阵:
在这里插入图片描述
在这里插入图片描述

2.3切普曼-柯尔莫哥洛夫方程(C-K方程)

在这里插入图片描述
即当n = k时:
在这里插入图片描述

3.初始分布与绝对分布

3.1初始分布

在这里插入图片描述

3.2绝对分布

在这里插入图片描述
马氏链的绝对概率由初始分布及一步转移概率唯一确定。

4.遍历性与平稳分布

4.1遍历性与平稳性

在这里插入图片描述

4.2遍历性的判断

在这里插入图片描述
平稳性的物理意义:对任意时刻,系统处于同一状态的概率相同
注意:遍历的马氏链一定具有平稳性,但平稳的马氏链不一定具有遍历性(不遍历的马氏链也可具有平稳性)

5.马氏链中的状态分布

5.1到达

  • 5
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值