《统计学习方法》浏览学习记录

最新推荐文章于 2024-08-21 11:02:00 发布

卧寺小柏

最新推荐文章于 2024-08-21 11:02:00 发布

阅读量392

点赞数 4

分类专栏：统计学习方法文章标签：学习方法学习深度学习机器学习

本文链接：https://blog.csdn.net/qq_45703270/article/details/136969423

版权

统计学习方法专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文介绍了马尔可夫决策过程(MDP)，一种在序列决策中使用的数学模型，以及与其相关的马尔可夫链、隐马尔可夫模型(HMM)和马尔可夫随机场的概念。这些模型在机器学习，尤其是强化学习和自然语言处理中有广泛应用。文中还提到了求解策略的方法，如动态规划和估计技术，如极大似然估计和贝叶斯估计。

摘要由CSDN通过智能技术生成

20230323

P1-P15

马尔科夫决策过程

马尔可夫决策过程（Markov Decision Process, MDP）是一种序贯决策的数学模型，它适用于系统状态具有马尔可夫性质的环境，用于模拟智能体可实现的随机性策略与回报。
MDP得名于俄国数学家安德雷·马尔可夫，以纪念其在马尔可夫链研究上的贡献。
MDP基于智能体和环境两组交互对象进行构建，包含状态、动作、策略和奖励等要素。在模拟过程中，智能体会根据当前系统状态，按照策略对环境实施动作，从而改变环境状态并获得奖励。随着时间的积累，这些奖励形成回报。由于MDP的理论基础是马尔可夫链，它也被视为考虑了动作的马尔可夫模型。
MDP可以在离散时间或连续时间上建立，分别称为“离散时间马尔可夫决策过程”和“连续时间马尔可夫决策过程”。MDP还有多种变体，包括部分可观察马尔可夫决策过程、约束马尔可夫决策过程和模糊马尔可夫决策过程。
在应用方面，MDP被用于机器学习中的强化学习问题建模。通过使用动态规划、随机采样等方法，可以求解使回报最大化的智能体策略。MDP在自动控制、推荐系统等领域也有应用。

马尔科夫链

马尔可夫链是概率论和数理统计中的一个概念，它描述了一种状态序列，其中每个状态值仅取决于前面有限个状态。这些状态变量的集合被称为“状态空间”，而每个状态值是在特定时间点上的状态。如果一个马尔可夫链在给定过去状态的情况下，对于未来的状态分布仅依赖于当前状态，则该链具有马尔可夫性质。
马尔可夫链可以通过转移矩阵和转移图来定义，其中转移矩阵表示状态之间的转移概率。马尔可夫链可能具有其他性质，如不可约性、常返性、周期性和遍历性。一个不可约和常返的马尔可夫链是严格平稳的，它具有唯一的平稳分布。遍历马尔可夫链指的是其极限分布收敛于平稳分布。
马尔可夫链在多个领域有应用，包括蒙特卡罗方法、动力系统、化学反应、排队论、市场行为和信息检索。此外，马尔可夫链也是机器学习算法如隐马尔可夫模型、马尔可夫随机场和马尔可夫决策过程的理论基础。
马尔可夫链的命名来源于俄国数学家安德雷·马尔可夫，以纪念他对马尔可夫链概念的提出及其对收敛性质的研究。

隐马尔可夫模型

隐马尔可夫模型(Hidden Markov Model,HMM)是一种统计模型，用于描述包含隐含未知参数的马尔可夫过程。
HMM的核心在于，其状态(隐含变量)对观察者来说是不可见的，但可以通过观察序列(显含变量)来推断这些状态。HMM由两部分组成：隐含状态序列和观测序列。隐含状态序列遵循马尔可夫链的规则，即当前状态仅依赖于前一个状态，而与后续状态无关。观测序列则是由隐含状态通过某个概率分布生成的，这些分布称为输出概率。HMM的主要应用包括语音识别、模式识别、机器翻译、生物信息学等。
HMM的评估和推理算法包括前向算法、后向算法、Viterbi算法、Baum-Welch算法等，这些算法用于计算给定观测序列下隐含状态序列的概率，或者寻找最可能的隐含状态序列，以产生给定的观测序列。

马尔可夫随机场

查看以下转载：
概率图模型_马尔可夫随机场

极大似然估计和贝叶斯估计

查看以下转载：
极大似然估计和贝叶斯估计

卧寺小柏

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
《统计学习方法》浏览学习记录

如果一个马尔可夫链在给定过去状态的情况下，对于未来的状态分布仅依赖于当前状态，则该链具有马尔可夫性质。HMM的评估和推理算法包括前向算法、后向算法、Viterbi算法、Baum-Welch算法等，这些算法用于计算给定观测序列下隐含状态序列的概率，或者寻找最可能的隐含状态序列，以产生给定的观测序列。马尔可夫决策过程（Markov Decision Process, MDP）是一种序贯决策的数学模型，它适用于系统状态具有马尔可夫性质的环境，用于模拟智能体可实现的随机性策略与回报。
复制链接

扫一扫