马尔可夫决策内容较多,此学习笔记仅在重要点作简要记录备忘,逻辑性不强。如要重新学习马尔可夫决策,此学习笔记可能不适合,请见谅。
马尔可夫决策模型有5个参数; A,S,Psa,γ,R(s,a) 其中:
-A表示动作集合
-S表示状态集合
- γ 表示折损因子
- Psa 表示在状态 s 采取a行动后,下一状态是状态集合S里各个状态的概率
-
例如,我们用手柄玩打砖块的游戏:
-A={左,右},注意,这里的动作集合左,右均指手指按手柄的动作。
- S={
s1,s2,s3…}, 小球的位置,速度大小和方向,砖块的数量和位置以及板的位置均会影响状态。因此状态集合的数量是很大的。
- γ 表示折损因子
- Psa ,指在状态s,手指对手柄作出了动作a(如左)后,模型进入下一个状态的概率。一般而言,当手指作出了向左的动作,模型会进入板向左对应的状态。但有可能手柄或者其他硬件出问题,相反进入了向右所对应的状态。因此这里 Psa 有很大的概率= s向左 , Psa 有很小的概率= s向右 。
- R(s,a) 一般R只和s有关,与动作无关,则 R(s,a) 可以用 R