DL--Markov decision process(MDP)(马尔可夫决策过程)

wiki:https://en.wikipedia.org/wiki/Markov_decision_process

马尔可夫决策过程(MDP)是一个离散时间随机控制过程。它提供了一个数学框架,用于在结果部分随机、部分受决策者控制的情况下建模决策。MDPs有助于研究动态规划和强化学习所解决的优化问题。MDPs至少早在20世纪50年代就已为人所知;[1]Markov决策过程的一个核心研究机构源于Ronald Howard 1960年的著作《动态规划和Markov过程》。[2]它们被应用于许多学科,包括机器人学、自动控制、经济学和制造业。MDPs的名字来自俄罗斯数学家Andrey Markov,因为它们是Markov链的一个扩展。

在每个时间步骤中,进程都处于某些状态s,决策者可以选择状态s中可用的任何操作a。在下一个时间步骤中,该进程通过随机进入新状态s′,并给予决策者相应的奖励R a(s,s′)。进程进入新状态s’的概率受所选操作的影响。具体地说,它是由状态转换函数P a(s,s′)给出的。因此,下一个状态s'取决于当前状态s和决策者的操作a。但是,给定s和a,它在条件上独立于所有先前的状态和操作;换句话说,MDP的状态转换满足Markov属性。

马尔可夫决策过程是马尔可夫链的延伸,区别在于行动(允许选择)和奖励(给予动机)的相加。相反,如果每个状态只存在一个动作(例如“等待”),并且所有奖励都是相同的(例如“零”),则马尔可夫决策过程减少到马尔可夫链。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值