马尔科夫型决策以及使用python计算方法

本文介绍了马尔科夫性,解释了马尔科夫决策过程,并通过一个工厂机器状态的例子展示了如何利用Python计算马尔科夫链的转移概率矩阵。文章探讨了在不同决策方案下机器的收益情况,指出马尔科夫链的决策依赖于初始分布和转移概率矩阵。
摘要由CSDN通过智能技术生成

一、马尔可夫性

考察某工厂一台自动加工机的工作状态。该机器有两种工作状态:正常状态和故障状态。在每个整数钟点的起始时刻检查机器的工作情况,若机器处于正常状态,则让它继续工作;若机器处于故障状态,则对他进行检修。假设处于正常状态的机器,在1小时后发生故障的概率为0.05;处于故障状态的机器,在1小时内排除故障的概率0.6

显然任何时刻,机器只能处于正常状态或故障状态,我们分别用1和2表示这两种状态。

那么,这台机器在第n小时的状态Xn或者等于1,或者等于2,即Xn是仅取两个值的

离散型随机变量。我们关心的是Xn的随机变化规律。

由于处于正常状态的机器1小时后发生故障的概率为0.05,即

 

所以机器1小时后任处于正常状态的概率为

 

此时,X1的分布列由条件概率构成,这个分布列实际是已知X0=1的情况下X1的条件分布列

,用表格表示如下:

X1

1

2

P(.|X0=1)

0.95

0.05

已知机器在第n小时处于故障状态,等价于事件{Xn=2}已经发生.此时在第n+1小时机器

处于第j(j=1,2)状态的概率是条件概率P(Xn+1=j|Xn=2).类似于前面的讨论,由故障机器

在1小时内被修复的概率为0.6,得

因此,若机器在第n小时处于故障状态,则Xn+1的条件分别列为

Xn+1

1

2

P(.|Xn=2)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值