DL--Markov decision process（MDP）（马尔可夫决策过程）

最新推荐文章于 2024-05-09 14:17:56 发布

bug404_

最新推荐文章于 2024-05-09 14:17:56 发布

阅读量1k

点赞数

分类专栏：深度强化学习文章标签： Markov decision process 马尔科夫决策

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bornfree5511/article/details/103819352

版权

深度强化学习专栏收录该内容

31 篇文章 33 订阅

订阅专栏

wiki：https://en.wikipedia.org/wiki/Markov_decision_process

马尔可夫决策过程（MDP）是一个离散时间随机控制过程。它提供了一个数学框架，用于在结果部分随机、部分受决策者控制的情况下建模决策。MDPs有助于研究动态规划和强化学习所解决的优化问题。MDPs至少早在20世纪50年代就已为人所知；[1]Markov决策过程的一个核心研究机构源于Ronald Howard 1960年的著作《动态规划和Markov过程》。[2]它们被应用于许多学科，包括机器人学、自动控制、经济学和制造业。MDPs的名字来自俄罗斯数学家Andrey Markov，因为它们是Markov链的一个扩展。

在每个时间步骤中，进程都处于某些状态s，决策者可以选择状态s中可用的任何操作a。在下一个时间步骤中，该进程通过随机进入新状态s′，并给予决策者相应的奖励R a（s，s′）。进程进入新状态s’的概率受所选操作的影响。具体地说，它是由状态转换函数P a（s，s′）给出的。因此，下一个状态s'取决于当前状态s和决策者的操作a。但是，给定s和a，它在条件上独立于所有先前的状态和操作；换句话说，MDP的状态转换满足Markov属性。

马尔可夫决策过程是马尔可夫链的延伸，区别在于行动（允许选择）和奖励（给予动机）的相加。相反，如果每个状态只存在一个动作（例如“等待”），并且所有奖励都是相同的（例如“零”），则马尔可夫决策过程减少到马尔可夫链。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DL--Markov decision process（MDP）（马尔可夫决策过程）

wiki：https://en.wikipedia.org/wiki/Markov_decision_process马尔可夫决策过程（MDP）是一个离散时间随机控制过程。它提供了一个数学框架，用于在结果部分随机、部分受决策者控制的情况下建模决策。MDPs有助于研究动态规划和强化学习所解决的优化问题。MDPs至少早在20世纪50年代就已为人所知；[1]Markov决策过程的一个核心研究机构源于R...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。