《统计学习方法》浏览学习记录

本文介绍了马尔可夫决策过程(MDP),一种在序列决策中使用的数学模型,以及与其相关的马尔可夫链、隐马尔可夫模型(HMM)和马尔可夫随机场的概念。这些模型在机器学习,尤其是强化学习和自然语言处理中有广泛应用。文中还提到了求解策略的方法,如动态规划和估计技术,如极大似然估计和贝叶斯估计。
摘要由CSDN通过智能技术生成

20230323

P1-P15

马尔科夫决策过程

马尔可夫决策过程(Markov Decision Process, MDP)是一种序贯决策的数学模型,它适用于系统状态具有马尔可夫性质的环境,用于模拟智能体可实现的随机性策略与回报。
MDP得名于俄国数学家安德雷·马尔可夫,以纪念其在马尔可夫链研究上的贡献。
MDP基于智能体和环境两组交互对象进行构建,包含状态、动作、策略和奖励等要素。在模拟过程中,智能体会根据当前系统状态,按照策略对环境实施动作,从而改变环境状态并获得奖励。随着时间的积累,这些奖励形成回报。由于MDP的理论基础是马尔可夫链,它也被视为考虑了动作的马尔可夫模型。
MDP可以在离散时间或连续时间上建立,分别称为“离散时间马尔可夫决策过程”和“连续时间马尔可夫决策过程”。MDP还有多种变体,包括部分可观察马尔可夫决策过程、约束马尔可夫决策过程和模糊马尔可夫决策过程。
在应用方面,MDP被用于机器学习中的强化学习问题建模。通过使用动态规划、随机采样等方法,可以求解使回报最大化的智能体策略。MDP在自动控制、推荐系统等领域也有应用。

马尔科夫链

马尔可夫链是概率论和数理统计中的一个概念,它描述了一种状态序列,其中每个状态值仅取决于前面有限个状态。这些状态变量的集合被称为“状态空间”,而每个状态值是在特定时间点上的状态。如果一个马尔可夫链在给定过去状态的情况下,对于未来的状态分布仅依赖于当前状态,则该链具有马尔可夫性质。
马尔可夫链可以通过转移矩阵和转移图来定义,其中转移矩阵表示状态之间的转移概率。马尔可夫链可能具有其他性质,如不可约性、常返性、周期性和遍历性。一个不可约和常返的马尔可夫链是严格平稳的,它具有唯一的平稳分布。遍历马尔可夫链指的是其极限分布收敛于平稳分布。
马尔可夫链在多个领域有应用,包括蒙特卡罗方法、动力系统、化学反应、排队论、市场行为和信息检索。此外,马尔可夫链也是机器学习算法如隐马尔可夫模型、马尔可夫随机场和马尔可夫决策过程的理论基础。
马尔可夫链的命名来源于俄国数学家安德雷·马尔可夫,以纪念他对马尔可夫链概念的提出及其对收敛性质的研究。

隐马尔可夫模型

隐马尔可夫模型(Hidden Markov Model,HMM)是一种统计模型,用于描述包含隐含未知参数的马尔可夫过程。
HMM的核心在于,其状态(隐含变量)对观察者来说是不可见的,但可以通过观察序列(显含变量)来推断这些状态。HMM由两部分组成:隐含状态序列和观测序列。隐含状态序列遵循马尔可夫链的规则,即当前状态仅依赖于前一个状态,而与后续状态无关。观测序列则是由隐含状态通过某个概率分布生成的,这些分布称为输出概率。HMM的主要应用包括语音识别、模式识别、机器翻译、生物信息学等。
HMM的评估和推理算法包括前向算法、后向算法、Viterbi算法、Baum-Welch算法等,这些算法用于计算给定观测序列下隐含状态序列的概率,或者寻找最可能的隐含状态序列,以产生给定的观测序列。

马尔可夫随机场

查看以下转载:
概率图模型_马尔可夫随机场

极大似然估计和贝叶斯估计

查看以下转载:
极大似然估计和贝叶斯估计

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值