基础阶段（二）——马尔科夫决策过程（MDP）

最新推荐文章于 2024-03-12 15:53:35 发布

魔法攻城狮MRL

最新推荐文章于 2024-03-12 15:53:35 发布

阅读量1.7k

点赞数 3

分类专栏：机器学习之强化学习文章标签：人工智能机器学习强化学习马尔科夫决策过程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41959920/article/details/108860873

版权

机器学习之强化学习专栏收录该内容

20 篇文章 34 订阅

订阅专栏

提示：转载请注明出处，若本文无意侵犯到您的合法权益，请及时与作者联系

基础阶段（二）——马尔可夫决策过程（MDP）

前言
一、马尔可夫模型
二、马尔可夫决策过程（MDP）
- 1.基本概念
- 2.数学表示
总结

前言

提示：一个现实问题只有用数学语言描述后，建立了合适的数学模型，才能从工程上找到严谨的解决之道。强化学习也不例外，本文介绍强化学习问题的基本数学模型——MDP

提示：以下是本篇文章正文内容，下面案例可供参考

一、马尔可夫模型

经典的机器学习算法背后依靠的大都是一些经典的概率论数学模型。
强化学习算法也不例外。强化学习的学习几乎都要从马尔可夫的随机过程讲起。
（马尔可夫是一名俄国数学家，其对概率论中的随机过程做出卓越贡献）

1.1 马尔科夫过程与马尔科夫性质

在一个随时间变化的系统中，系统的所有可能状态构成一个状态空间（状态集合），系统从一个状态到另一个状态的转换是一个随机过程，当这个随机过程中的每个状态的转移只依赖于之前的n个状态，这个随机过程就被描述为一个n阶的马尔科夫过程（其中n是影响当前状态转移的之前状态的数目）。

一般我们关注多的都是一阶马尔可夫过程，即当前状态的转移只依赖于其之前的一个状态，这种性质就是马尔可夫性。

1.2 马尔科夫模型

马尔可夫模型的子模型大多具有马尔可夫性，即系统的下个状态只与当前状态信息有关，但是存在一些特列，例如MDP考虑了动作，即系统下个状态不仅和当前的状态有关，也和当前采取的动作有关。

各个子模型之间的区别如下：
在这里插入图片描述

1.2.1 马尔可夫链(Markov Chain)

给定一个随时间输出的状态序列｛s₁,s₂,···,s_t｝，其从s_t转移到s_t+1的概率：
P(s_t+1|s₁,s₂,···,s_t)=P(s_t+1|s_t)
即某一时刻的状态由上一个时刻的状态决定。
当我们确定系统中任意两个状态的转移概率和该系统在t时刻所处的状态，那么我们就可以确定其在t+1时刻处于某种状态的概率。
系统中任意两个状态之间的转移概率可以通过统计得到，从而求出一个状态转移的概率矩阵。

1.2.2 隐马尔可夫模型(Hidden Markov Model，HMM)

一个机器学习的基本概率模型，也具有马尔可夫性，也就是指系统的下个状态只与当前状态信息有关，而与更早之前的状态无关。
该模型一般出现在自然语言处理领域进行语义标记等，强化学习模型则使用马尔可夫决策过程。

二、马尔可夫决策过程（MDP）

1.基本概念

在这里插入图片描述

2.数学表示

在这里插入图片描述

总结

以上就是今天要讲的内容，本文简单介绍了强化学习的基本概率模型MDP，大部门强化学习任务几乎都要使用MDP数学概念的建模，MDP中4个最关键的概念：S、A、P、R。

魔法攻城狮MRL

关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
0
评论
基础阶段（二）——马尔科夫决策过程（MDP）

提示：转载请注明出处，若本文无意侵犯到您的合法权益，请及时与作者联系基础阶段（二）——马尔可夫决策过程（MDP）前言一、马尔可夫模型的子模型1.1 马尔可夫链与马尔可夫性1.2 隐马尔可夫模型（HMM）和马尔可夫决策过程（MDP）1.3 马尔可夫子模型关系二、马尔可夫决策过程（MDP）1.基本定义2.读入数据总结前言提示：一个现实问题只有用数学语言描述后，建立了合适的数学模型，才能从工程上找到严谨的解决之道。强化学习也不例外，本文介绍强化学习问题的基本数学模型——MDP提示：以下是本篇文章正文
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

魔法攻城狮MRL 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。