马尔可夫过程(Markov Process)

马尔可夫过程

出自 MBA智库百科(http://wiki.mbalib.com/)

马尔可夫过程(Markov Process)

[ 编辑]

什么是马尔可夫过程

  1、马尔可夫性(无后效性)

  过程或(系统)在时刻t0所处的状态为已知的条件下,过程在时刻t > t0所处状态的条件分布,与过程在时刻t0之前年处的状态无关的特性称为马尔可夫性或无后效性。

  即:过程“将来”的情况与“过去”的情况是无关的。

  2、马尔可夫过程的定义

  具有马尔可夫性的随机过程称为马尔可夫过程。

  用分布函数表述马尔可夫过程:

  设I:随机过程{X(t),t/in T}的状态空间,如果对时间t的任意n个数值:

  P{X(t_n)/le x_n|X(t_1)=x_1,X(t_2)=x_2,/cdots ,X(t_{n-1})=x_{n-1}}(注:X(tn)在条件X(ti) = xi下的条件分布函数)

  =P{X(t_n/le x_n|X(t_{n-1})=x_{n-1}},x_n/in R(注:X(tn))在条件X(tn − 1) = xn − 1下的条件分布函数)

  或写成:

  F_{t_n|t_1/cdots t_{n-1}}(x_n,t_n|x_1,x_2,/cdots,x_{n-1};t_1,t_2,/cdots,t_{n-1})

  F_{t_n|t_{n-1}}(x_n,t_n|x_{n-1},t_{n-1})

  这时称过程X(t),t/in T具马尔可夫性或无后性,并称此过程为马尔可夫过程。

  3、马尔可夫链的定义

  时间和状态都是离散的马尔可夫过程称为马尔可夫链, 简记为{X_n=X(n),n=0,1,2,/cdots}

[ 编辑]

马尔可夫过程的概率分布

  研究时间和状态都是离散的随机序列:{X_n=X(n),n=0,1,2,/cdots},状态空间为I={a_1,a_2,/cdots},a_i/in R

  1、用分布律描述马尔可夫性

  对任意的正整数n,r和0/le t_1<t_2</cdots <t_r<m;t_i,m,n+m/in T_i,有:

  P{X_{m+n}=a_j|X_{t_1}=a_{i_1},X_{t_2}=a_{i_2},/cdots,X_{t_r}=a_{i_r},X_m=a_i}

  PXm + n = aj | Xm = ai,其中a_i/in I

  2、转移概率

  称条件概率Pij(m,m + n) = PXm + n = aj | Xm = ai为马氏链在时刻m处于状态ai条件下,在时刻m+n转移到状态aj转移概率

  说明:转移概率具胡特点:

  /sum_{j=1}^/infty P_{ij}(m,m+n)=1,i=1,2,/cdots

  由转移概率组成的矩阵马尔可夫过程称为马氏链的转移概率矩阵。它是随机矩阵。

  3、平稳性

  当转移概率Pij(m,m + n)只与i,j及时间间距n有关时,称转移概率具有平稳性。同时也称些链是齐次的或时齐的。

  此时,记Pij(m,m + n) = Pij(n),Pij(n) = PXm + n = aj | Xm = ai(注:称为马氏链的n步转移概率)

  P(n) = (Pij(n))为n步转移概率矩阵

  特别的, 当 k=1 时,

  一步转移概率:Pij = Pij(1) = PXm + 1 = aj | Xm = ai

  一步转移概率矩阵:P(1)

马尔可夫过程

[ 编辑]

马尔可夫过程的应用举例

  设任意相继的两天中,雨天转晴天的概率为1/3,晴天转雨天的概率为1/2,任一天晴或雨是互为逆事件。以0表示晴天状态,以1表示雨天状态,Xn表示第n天状态(0或1)。试定出马氏链X_n,n/ge 1的一步转移概率矩阵。又已知5月1日为晴天,问5月3日为晴天,5月5日为雨天的概率各等于多少?

  解:由于任一天晴或雨是互为逆事件且雨天转晴天的概率为1/3,晴天转雨天的概率为1/2,故一步转移概率和一步转移概率矩阵分别为:

  P{X_n=j|X_{n-1}=i}=/begin{cases}/frac{1}{3},i=1,j=0///frac{2}{3},i=1,j=1///frac{1}{2},i=0,j=0///frac{1}{2},i=0,j=1/end{cases}

马尔可夫过程

  故5月1日为晴天,5月3日为晴天的概率为:

  P_{00}(2)=/frac{5}{12}=0.4167

  又由于:马尔可夫过程

  故5月1日为晴天,5月5日为雨天的概率为:P01(4) = 0.5995

马尔可夫决策过程(Markov Decision Process,MDP)是一种数学框架,用于建模决策者(或称为“代理”)在一个随机环境中做出序列决策的过程。它是马尔可夫链的扩展,加入了决策制定过程。MDP特别适用于那些决策结果依赖于当前状态和所采取行动的场合。 MDP通常由以下几个部分组成: 1. **状态集合(S)**:表示环境可能存在的所有状态。 2. **行动集合(A)**:对于每个状态,可能存在一系列的行动可供选择。 3. **转移概率(P)**:描述当代理在某个状态下采取特定行动时,转移到下一个状态的概率。它是依赖于当前状态和采取行动的。 4. **奖励函数(R)**:为每个状态和行动对指定一个即时奖励值,表示采取这个行动后立即获得的“收益”。 5. **折扣因子(γ)**:一个介于0和1之间的值,用来衡量未来奖励的当前价值。 在MDP中,代理的目标是通过学习一个策略(policy),即一个状态到行动的映射,来最大化长期累积奖励。策略可以是确定性的,也可以是随机性的。确定性策略为每个状态指定一个行动,而随机性策略为每个状态指定一个行动的概率分布。 MDP的求解通常涉及到以下两个主要的计算问题: 1. **策略评估(Policy Evaluation)**:评估给定策略的期望回报。 2. **策略优化(Policy Improvement)**:基于当前策略评估的结果,生成一个更好的策略。 通过不断迭代这两个步骤,可以找到最优策略,即长期期望回报最大化的策略。在实际应用中,MDP是强化学习的基础,用于解决各种控制问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值