不考虑动作 | 考虑动作 | |
状态完全可见 | 马尔可夫链(MC) | 马尔可夫决策过程(MDP) |
状态不完全可见 | 隐马尔可夫模型(HMM) | 部分可观察马尔可夫决策(POMDP) |
一、马尔可夫性质(Markov property)
1、定义
当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态;换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么这个随机过程即具有马尔可夫性质。具有马尔可夫性质的过程通常称之为马尔可夫过程。
简单地说,就是系统的下个状态只与当前状态信息有关,与更早之前的状态无关,即“无记忆性”。
2、数学描述
如果X(t),t>0为一个随机过程,则马尔可夫性质就是指 P r [ X ( t + h ) ] = y ∣ X ( s ) = x ( s ) , s ≤ t ] = P r [ X ( t + h ) = y ∣ X ( t ) = x ( t ) ] , ∀ h > 0. Pr[X(t+h)]=y|X(s)=x(s),s \le t] = Pr[X(t+h)=y|X(t)=x(t)], \forall h>0. Pr[X(t+h)]=y∣X(s)=x(s),s≤t]=Pr[X(t+h)=y∣X(t)=x(t)],∀h>0.
二、马尔可夫链(MC)
1、定义
数学中具有马尔可夫性质的离散时间随机过程。状态空间中经过一个状态到另一个状态的转换的随机过程。这个过程要求具备马尔可夫性质。实际上这样干脆的过程可能是很少的,但很多时候在满足要求的前提下使用马尔可夫链的可以大大简化模型的复杂度。
2、数学定义
假设状态序列为 . . . , x t − 2 , x t − 1 , x t , x t + 1 , x t + 2 , . . . ...,x_{t-2},x_{t-1},x_{t},x_{t+1},x_{t+2},... ...,xt−2,xt−1,xt,xt+1,xt+2,...,由马尔可夫链定义可知,时刻 x t + 1 x_{t+1} xt+1的状态只与状态 x t x_{t} xt有关,用数学公式来描述: P ( x t + 1 ∣ . . . , x t − 2 , x t − 1 , x t ) = P ( x t + 1 ∣ x t ) P(x_{t+1}|...,x_{t-2},x_{t-1},x_{t}) = P(x_{t+1}|x_{t}) P(xt+1∣...,xt−2,x