统计概率模型
1、高斯判别分析
2、朴素贝叶斯
3、隐马尔可夫模型
4、最大熵马尔科夫模型
5,条件随机场
6,马尔科夫决策过程
六、马尔科夫决策过程
机器学习算法(有监督,无监督,弱监督)中,马尔科夫决策过程是弱监督中的一类叫增强学习。增加学习与传统的有监督和无监督不同的地方是,这些方法都是一次性决定最终结果的,而无法刻画一个决策过程,无法直接定义每一次决策的优劣,也就是说每一次的决策信息都是弱信息,所以某种程度上讲,强化学习也属于弱监督学习。从模型角度来看,也属于马尔科夫模型,其与隐马尔科夫模型有非常强的可比性。
下面是一个常用的马尔科夫模型的划分关系
- | 不考虑动作 | 考虑动作 |
---|---|---|
状态完全可见 | 马尔科夫链(MC) | 马尔科夫决策过程(MDP) |
状态不完全可见 | 隐马尔科夫模型(HMM) | 不完全可观察马尔科夫决策过程(POMDP) |
马尔科夫决策过程
马尔科夫决策过程由五元组组成 { S,A,Psa,γ,R} { S , A , P s a , γ , R }
S S :表示状态集合
:表示一组动作
Psa P s a :表示在某一状态 Si S i 下,采取动作 Ai A i ,转移到 Si+1 S i + 1 转态的概率,也就是说在确定的状态下采取相应的动作之后不能完全确定下一状态,而是以一定的概率确定下一状态。
γ γ :表示决策过程的一个阻尼系数,用户定义回报在决策过程中随时间打折扣,加快决策国产的收敛
R R :表示在该状态下的一个回报 ,有时由动作和状态共同决定回报该时刻的回报 R(a,s) R ( a , s ) 。
有了上面的定义之后,一个完整的马尔科夫决策过程状态转移图如下:
该过程表示从 S0 S 0 出发,有决策函数来选择相应的动作 a0 a 0 ,然后以概率 Pa,s P a , s 到达下一状态 Si∈S{ Psa} S i ∈ S { P s a } ,这里的 Si S i 只是表示第 i i 时刻的状态,而 的值属于状态集。
回报函数定义之后,整个决策过程的累积回报如下:
当回报函数与状态无关累积回报如下: