(斯坦福机器学习课程笔记)马尔可夫决策

最新推荐文章于 2024-08-15 13:20:27 发布

万德1010

最新推荐文章于 2024-08-15 13:20:27 发布

阅读量2.1k

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_32231743/article/details/68482708

版权

这篇博客介绍了马尔可夫决策模型的关键概念，包括动作集合、状态集合、折损因子、状态转移概率和回报函数，并通过打砖块游戏举例说明。文章探讨了策略π的获取，涉及策略评估的值函数和最优值函数，以及值迭代和策略迭代两种算法。此外，还简要提及了Q学习及其Q函数。

摘要由CSDN通过智能技术生成

马尔可夫决策内容较多，此学习笔记仅在重要点作简要记录备忘，逻辑性不强。如要重新学习马尔可夫决策，此学习笔记可能不适合，请见谅。

马尔可夫决策模型有5个参数; $A,S,P_{sa},\gamma,R(s,a)$ 其中：
-A表示动作集合
-S表示状态集合
- $\gamma$ 表示折损因子
- $P_{sa}$ 表示在状态 $s$ 采取a行动后，下一状态是状态集合S里各个状态的概率
- $R(s,a)$ 在状态s采取a行动的回报。

例如，我们用手柄玩打砖块的游戏：
这里写图片描述

-A={左，右}，注意，这里的动作集合左，右均指手指按手柄的动作。
- $S=\{s_1,s_2,s_3 \dots\}，$ 小球的位置，速度大小和方向，砖块的数量和位置以及板的位置均会影响状态。因此状态集合的数量是很大的。
- $\gamma$ 表示折损因子
- $P_{sa}$ ，指在状态s,手指对手柄作出了动作a（如左）后，模型进入下一个状态的概率。一般而言，当手指作出了向左的动作，模型会进入板向左对应的状态。但有可能手柄或者其他硬件出问题，相反进入了向右所对应的状态。因此这里 $P_{sa}$ 有很大的概率= $s_{向左}$ , $P_{sa}$ 有很小的概率= $s_{向右}$ 。
- $R(s,a)$ 一般R只和s有关，与动作无关，则 $R(s,a)$ 可以用 R