马尔可夫模型

本文对比了几种基本的马尔可夫模型,并介绍了它们的相关概念。

马尔可夫性

系统下一状态 s t + 1 s_{t+1} st+1仅与当前状态 s t s_t st有关,通过转移概率T表达如下
T ( s t + 1 ∣ s t ) = T ( s t ∣ s 1 , s 2 , … , s t ) T(s_{t+1}|s_{t}) = T(s_t|s_{1},s_{2},\dots,s_{t}) T(st+1st)=T(sts1,s2,,st)

马尔科夫链

每个状态都具有马尔科夫性的随机序列。

T12
s1
s2
st

马尔科夫过程

每个状态都具有马尔科夫性的随机过程(用来研究随机序列),用二元组 ( S , T ) (S,T) (S,T)表示。 S S S指有限状态空间, T T T是转移转移矩阵。
T = [ T 11 ⋯ T 1 n ⋮ ⋮ ⋮ T 11 ⋯ T 1 n ] T=\begin{bmatrix} T_{11} & \cdots & T_{1n} \\ \vdots & \vdots & \vdots \\ T_{11} & \cdots & T_{1n} \end{bmatrix} T=T11T11T1nT1n

隐马尔可夫模型(HMM)

系统存在不可观察的状态 s s s的马尔可夫模型,但隐藏状态和某些可以观察的随机变量相关。

马尔可夫决策模型(MDP)

引入有限动作空间 A A A,并且每执行一次动作后转移状态会从环境中获得立即奖励,由奖惩函数 r r r得到。MDP由元组 ( S , A , T , r , γ ) (S,A,T,r,\gamma) (S,A,T,r,γ)定义, γ \gamma γ是折扣因子,用于计算累计奖励 R R R

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值