马尔可夫系列概念

本文详细介绍了马尔可夫性质、马尔可夫链、隐马尔科夫模型、马尔可夫决策过程(MDP)以及部分可观马尔可夫决策过程(POMDP)。通过实例解释了HMM如何工作,并探讨了MDP和POMDP的决策策略及其面临的挑战。同时,提到了POMDP中的价值迭代和α-向量的概念。
摘要由CSDN通过智能技术生成
不考虑动作 考虑动作
状态完全可见 马尔可夫链(MC) 马尔可夫决策过程(MDP)
状态不完全可见 隐马尔可夫模型(HMM) 部分可观察马尔可夫决策(POMDP)

一、马尔可夫性质(Markov property)

1、定义

当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态;换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么这个随机过程即具有马尔可夫性质。具有马尔可夫性质的过程通常称之为马尔可夫过程。
        简单地说,就是系统的下个状态只与当前状态信息有关,与更早之前的状态无关,即“无记忆性”。

2、数学描述

如果X(t),t>0为一个随机过程,则马尔可夫性质就是指 P r [ X ( t + h ) ] = y ∣ X ( s ) = x ( s ) , s ≤ t ] = P r [ X ( t + h ) = y ∣ X ( t ) = x ( t ) ] , ∀ h > 0. Pr[X(t+h)]=y|X(s)=x(s),s \le t] = Pr[X(t+h)=y|X(t)=x(t)], \forall h>0. Pr[X(t+h)]=yX(s)=x(s),st]=Pr[X(t+h)=yX(t)=x(t)],h>0.

二、马尔可夫链(MC)

1、定义

数学中具有马尔可夫性质的离散时间随机过程。状态空间中经过一个状态到另一个状态的转换的随机过程。这个过程要求具备马尔可夫性质。实际上这样干脆的过程可能是很少的,但很多时候在满足要求的前提下使用马尔可夫链的可以大大简化模型的复杂度。

2、数学定义

假设状态序列为 . . . , x t − 2 , x t − 1 , x t , x t + 1 , x t + 2 , . . . ...,x_{t-2},x_{t-1},x_{t},x_{t+1},x_{t+2},... ...,xt2,xt1,xt,xt+1,xt+2,...,由马尔可夫链定义可知,时刻 x t + 1 x_{t+1} xt+1的状态只与状态 x t x_{t} xt有关,用数学公式来描述: P ( x t + 1 ∣ . . . , x t − 2 , x t − 1 , x t ) = P ( x t + 1 ∣ x t ) P(x_{t+1}|...,x_{t-2},x_{t-1},x_{t}) = P(x_{t+1}|x_{t}) P(xt+1...,xt2,x

  • 6
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值