统计概率模型-马尔科夫决策过程

马尔科夫决策过程(MDP)是弱监督学习中的增强学习模型,与隐马尔可夫模型类似,但涉及决策过程。MDP由状态集合、动作集、状态转移概率、阻尼系数和回报函数组成。目标是找到最大化累积回报的最优决策函数。值迭代和策略迭代是求解最优决策的方法,其中值迭代通过更新累积回报函数,策略迭代则直接更新策略。MDP的参数估计通常基于状态转移路径统计。
摘要由CSDN通过智能技术生成

统计概率模型

1、高斯判别分析
2、朴素贝叶斯
3、隐马尔可夫模型
4、最大熵马尔科夫模型
5,条件随机场
6,马尔科夫决策过程

六、马尔科夫决策过程

​ 机器学习算法(有监督,无监督,弱监督)中,马尔科夫决策过程是弱监督中的一类叫增强学习。增加学习与传统的有监督和无监督不同的地方是,这些方法都是一次性决定最终结果的,而无法刻画一个决策过程,无法直接定义每一次决策的优劣,也就是说每一次的决策信息都是弱信息,所以某种程度上讲,强化学习也属于弱监督学习。从模型角度来看,也属于马尔科夫模型,其与隐马尔科夫模型有非常强的可比性。

下面是一个常用的马尔科夫模型的划分关系

- 不考虑动作 考虑动作
状态完全可见 马尔科夫链(MC) 马尔科夫决策过程(MDP)
状态不完全可见 隐马尔科夫模型(HMM) 不完全可观察马尔科夫决策过程(POMDP)

马尔科夫决策过程

马尔科夫决策过程由五元组组成 { S,A,Psa,γ,R} { S , A , P s a , γ , R }

S S :表示状态集合

A :表示一组动作

Psa P s a :表示在某一状态 Si S i 下,采取动作 Ai A i ,转移到 Si+1 S i + 1 转态的概率,也就是说在确定的状态下采取相应的动作之后不能完全确定下一状态,而是以一定的概率确定下一状态。

γ γ :表示决策过程的一个阻尼系数,用户定义回报在决策过程中随时间打折扣,加快决策国产的收敛

R R :表示在该状态下的一个回报 R ( s ) ,有时由动作和状态共同决定回报该时刻的回报 R(a,s) R ( a , s )

有了上面的定义之后,一个完整的马尔科夫决策过程状态转移图如下:

这里写图片描述

该过程表示从 S0 S 0 出发,有决策函数来选择相应的动作 a0 a 0 ,然后以概率 Pa,s P a , s 到达下一状态 SiS{ Psa} S i ∈ S { P s a } ,这里的 Si S i 只是表示第 i i 时刻的状态,而 S i 的值属于状态集。

回报函数定义之后,整个决策过程的累积回报如下:

R(s0,a0)+γ1R(s1,a1)+....+γiR(si,ai)+... R ( s 0 , a 0 ) + γ 1 R ( s 1 , a 1 ) + . . . . + γ i R ( s i , a i ) + . . .

当回报函数与状态无关累积回报如下:
R(s0)+γ1R(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值