统计概率模型-马尔科夫决策过程

最新推荐文章于 2024-08-09 17:07:41 发布

myazi

最新推荐文章于 2024-08-09 17:07:41 发布

阅读量2.6k

点赞数 2

分类专栏：机器学习机器学习

本文链接：https://blog.csdn.net/u010865478/article/details/82707915

版权

马尔科夫决策过程（MDP）是弱监督学习中的增强学习模型，与隐马尔可夫模型类似，但涉及决策过程。MDP由状态集合、动作集、状态转移概率、阻尼系数和回报函数组成。目标是找到最大化累积回报的最优决策函数。值迭代和策略迭代是求解最优决策的方法，其中值迭代通过更新累积回报函数，策略迭代则直接更新策略。MDP的参数估计通常基于状态转移路径统计。

摘要由CSDN通过智能技术生成

统计概率模型

1、高斯判别分析

2、朴素贝叶斯

3、隐马尔可夫模型

4、最大熵马尔科夫模型

5，条件随机场

6，马尔科夫决策过程

六、马尔科夫决策过程

机器学习算法（有监督，无监督，弱监督）中，马尔科夫决策过程是弱监督中的一类叫增强学习。增加学习与传统的有监督和无监督不同的地方是，这些方法都是一次性决定最终结果的，而无法刻画一个决策过程，无法直接定义每一次决策的优劣，也就是说每一次的决策信息都是弱信息，所以某种程度上讲，强化学习也属于弱监督学习。从模型角度来看，也属于马尔科夫模型，其与隐马尔科夫模型有非常强的可比性。

下面是一个常用的马尔科夫模型的划分关系

-	不考虑动作	考虑动作
状态完全可见	马尔科夫链(MC)	马尔科夫决策过程(MDP)
状态不完全可见	隐马尔科夫模型(HMM)	不完全可观察马尔科夫决策过程(POMDP)