在强化学习中,我们将提供一个奖赏函数,当目标完成的好时,便奖赏;当目标完成的不好时,就惩罚。鞭策算法走一条良好的道路。
马尔科夫决策过程(MDP)
一个Markov decision process是一个元组 (S,A,Psa,γ,R) 。其中:
- S 是状态集。比如在自动直升机驾驶中,
S 就是直升机的所有可能位置,方向。 - A 是行动。比如所有你能控制直升机的方向。
-
Psa 是状态转移概率。对于每个状态 s∈S 每个行动 a∈A , Psa 给出了当我们在状态 s 采取行动a 时,我们将会转移到的状态的分布。 - γ∈[0,1) 称为阻尼系数。
- R:S∗A−>RealNumber 叫做回报函数。
MDP的动态过程:从初始状态 s0 开始,采取行动 a0∈A ;MDP过程向前推进,按分布 s1∼Ps0a0 随机转换到下一个状态 s1 。以此类推,不断转换。用流程可以表示为:
s0−>(a0)−>s1−>(a1)−>s2−>(a2)−>...
定义其总花费:
R(s0,a0)+γR(s1,a1)+γ2R(s2,a2)+...
我们要做的是选择随时间变化的行动,来使得总花费的期望值最大:
max,E[R(s0,a0)+γR(s1