强化学习之马尔可夫决策

最新推荐文章于 2024-07-15 17:08:02 发布

Ftwhale

最新推荐文章于 2024-07-15 17:08:02 发布

阅读量948

点赞数

分类专栏：深度学习文章标签：强化学习机器学习决策树

本文链接：https://blog.csdn.net/Ftwhale/article/details/105987358

版权

本文介绍了马尔可夫决策过程（MDP）的基础知识，包括MDP的定义、状态转移概率和奖励值。通过垃圾回收机器人的例子，详细阐述了MDP在实际问题中的应用，并探讨了值函数的概念，包括状态值和动作值的计算方法。MDP是强化学习的重要理论基础，对于理解和应用强化学习具有重要意义。

摘要由CSDN通过智能技术生成

大家学过机器学习的话应该对隐马尔可夫模型(HMM)有所了解，它具有的马尔可夫特性就是指系统的下个状态只和当前状态信息有关，而与更早之前的状态无关，即：

在这里插入图片描述
马尔科夫决策过程(Markov Decision Process, MDP)以马尔可夫随机过程为理论基础，马尔科夫决策过程也可以用一个元组(S,A,P,R,γ)(S,A,P,R,γ)来表示。SS是决策过程中的状态集合；AA是决策过程中的动作集合；PP是状态之间的转移概率；RR是采取某一动作到达下一状态后的回报(也可看作奖励)值；γγ是折扣因子。特别地，这里的转移概率与马尔科夫随机过程不同，这里的转移概率是加入了动作AA的概率，如果当前状态采用不同动作，那么到达的下一个状态也不一样，自然转移概率也不一样。转移概率形式化描述是：马尔可夫奖赏过程：

在这里插入图片描述
这个式子的意思是：在t时刻所处的状态是s，采取a动作后在t+1时刻到达s^s的概率下面我们也用一个具体的例子来讲述一下马尔可夫过程：例: (垃圾回收机器人)垃圾回收机器人基于自己电池的含量来决定相应的动作。当电量很高的时候，机器人可以在路上到处寻找垃圾来进行回收，也可以呆在原地不动，等着人类把垃圾送进自己的肚囊。如果电量很低的话，机器人可以选择去充电，也可以选择呆在原地不动，同时，仍然可以选择花费更多的电力去得到垃