马尔可夫过程
马尔可夫决策过程(Markov Decision Processes,MDPs)是对强化学习问题的数学描述。几乎所有的RL问题都能用MDPs来表述:
- 最优控制问题可以描述为连续MDPs
- 部分观测环境可以转化成POMDPs
- 赌博机问题是只有一个状态的MDPs
本文中介绍的MDPs是在全观测的环境下进行的!
马尔科夫性
如果在t时刻的状态 St S t 满足如下等式,那么这个状态被称为马尔科夫状态,或者说该状态满足马尔科夫性。
P[St+1|St]=P[St+1|S1,...,St] P [ S t + 1 | S t ] = P [ S t + 1 | S 1 , . . . , S t ]
- 状态 St S t 包含了所有历史相关信息,或者说历史的所有状态的相关信息都在当前状态 St S t 上体现出来
- 一旦 St S t 知道了,那么 S1,S2,...,St−1 S 1 , S 2 , . . . , S t − 1 都可以被抛弃
- 数学上可以认为状态是将来的充分统计量,这里要求环境全观测,比如下棋时,只关心当前局面,打俄罗斯方块时,只关心当前屏幕
状态转移矩阵
状态转移概率指从一个马尔科夫状态s跳转到后继状态 s′ s ′ 的概率
Pss′=P[St+1=s′|St=s] P s s ′ = P [ S t + 1 = s ′ | S t = s ]
所有的状态组成行,所有的后继状态组成列,我们得到状态转移矩阵
P=⎡⎣⎢⎢p11⋮pm1⋯⋱⋯p1n⋮pmn⎤⎦⎥⎥ P = [ p 11 ⋯ p 1 n ⋮ ⋱ ⋮ p m 1 ⋯ p m n ]
n表示状态的个数,每行元素相加和等于1
状态转移函数
我们可以将状态转移概率写成函数形式
P(s′|s)=P[St+1=s′|St=s] P ( s ′ | s ) = P [ S t + 1 = s ′ | S t = s ]
- ∑s′P(s′|s)=1 ∑ s ′ P ( s ′ | s ) = 1
- 状态数量太多或者无穷大(连续状态)时,更适合使用状态转移函数,此时 ∫s′P(s′|s)=1 ∫ s ′ P ( s ′ | s ) = 1
马尔可夫过程(Markov process,MP)
马尔可夫过程是一个无记忆的随机过程,即一些马尔可夫状态的序列,马尔可夫过程可以由一个二元组来定义 < S,P >,S表示状态的集合,P描述状态转移矩阵
注:虽然我们不知道P的具体值,但是通常我们假设P存在且稳定,当P不稳定时,不稳定环境在线学习,快速学习
如上图:
- 一个学生每天需要学习三个科目,然后通过测验
- 有的可能智学苑两个科目之后直接睡觉
- 一旦挂科有可能需要重新学习某些科目
- 该过程用椭圆表示普通状态,每条线上的数字表示从一个状态跳转到另一个状态的概率
- 方块表示终止状态
- 终止状态的定义有两种:
- 时间终止
- 状态终止
由于马尔可夫过程可以用图中的方块和线条表示,所以马尔可夫过程也成为马尔可夫链
片段
强化学习中,从初始状态 S1 S 1 到终止状态的序列过程,被称为一个片段 S1,S2,...,ST S 1 , S 2 , . . . , S T
- 如果一个任务总以终止状态结束,那么这个任务被称为片段任务
- 如果一个任务会没有终止状态,会被无限执行下去,被称为连续性任务
状态转移矩阵:
马尔可夫奖励过程(MRP)
马尔可夫链主要描述的是状态之间的转移关系,在这个转移关系上赋予不同的奖励值即得到了马尔可夫奖励过程。
- S代表状态的集合
- P表示状态转移矩阵
- R表示奖励函数,R(s)描述在状态s的奖励 R(s)=E[Rt+1|St=s] R ( s ) = E [ R t + 1 | S t = s ]
- γ γ 表示衰减因子, γ∈[0,1] γ ∈ [ 0 , 1 ]
回报值
奖励值是对每一个状态的评价,回报值是对每一个片段的评价
回报值(return Gt G t )是从时间t处开始的累计衰减奖励
对于片段性任务
Gt=Rt+1