wiki:https://en.wikipedia.org/wiki/Markov_decision_process
马尔可夫决策过程(MDP)是一个离散时间随机控制过程。它提供了一个数学框架,用于在结果部分随机、部分受决策者控制的情况下建模决策。MDPs有助于研究动态规划和强化学习所解决的优化问题。MDPs至少早在20世纪50年代就已为人所知;[1]Markov决策过程的一个核心研究机构源于Ronald Howard 1960年的著作《动态规划和Markov过程》。[2]它们被应用于许多学科,包括机器人学、自动控制、经济学和制造业。MDPs的名字来自俄罗斯数学家Andrey Markov,因为它们是Markov链的一个扩展。
在每个时间步骤中,进程都处于某些状态s,决策者可以选择状态s中可用的任何操作a。在下一个时间步骤中,该进程通过随机进入新状态s′,并给予决策者相应的奖励R a(s,s′)。进程进入新状态s’的概率受所选操作的影响。具体地说,它是由状态转换函数P a(s,s′)给出的。因此,下一个状态s'取决于当前状态s和决策者的操作a。但是,给定s和a,它在条件上独立于所有先前的状态和操作;换句话说,MDP的状态转换满足Markov属性。
马尔可夫决策过程是马尔可夫链的延伸,区别在于行动(允许选择)和奖励(给予动机)的相加。相反,如果每个状态只存在一个动作(例如“等待”),并且所有奖励都是相同的(例如“零”),则马尔可夫决策过程减少到马尔可夫链。