RL-Ch2-马尔可夫决策过程
前情回顾
RL Agent的核心元素为model,value,policy。
课程大纲
- Markov Chain–>Markov Reward Process–>Markov Decision Process
- Policy evaluation in MDP
- Policy iteration and value iteration
引入
上章图1的RL过程可转化为MDP,但是MDP下的环境是完全可观测的,很多时候环境不完全可观测时也可通过一些方法转化为MDP。
Markov性质
Markov Property指的是未来的状态只取决于当下的状态,而独立于过去的状态。
令历史状态序列为 h t = S 1 , S 2 , . . . , S t h_t={S_1,S_2,...,S_t} ht=S1,S2,...,St,若 S t S_t St满足Markov Property,则有如下式子成立
P ( S t + 1 ∣ S t ) = P ( S t + 1 ∣ h t ) P(S_{t+1}|S_t)=P(S_{t+1}|h_t) P(St+1∣St)=P(St+1∣ht)
P ( S t + 1 ∣ S t , a t ) = P ( S t + 1 ∣ h t , a t ) P(S_{t+1}|S_t,a_t)=P(S_{t+1}|h_t,a_t) P(St+1∣St,at)=P(St+1∣ht,at)
Markov Chain (S,P)
图1为状态转换图,图中包含有状态(State)和转移矩阵(Probability)。
状态转移矩阵可写为
P = [ p ( s t + 1 ) = s ∣ s t = s ] = [ p ( s 1 ∣ s 1 ) . . . p ( s N ∣ s 1 ) p ( s 1 ∣ s 2 ) . . . p ( s N ∣ s 2 ) ⋮ ⋱ ⋮ p ( s 1 ∣ s N ) . . . p ( s N ∣ s N ) ] P=[p(s_{t+1})=s|s_t=s]=\left[ \begin{matrix} p(s_1|s_1)&...&p(s_N|s_1)\\ p(s_1|s_2)&...&p(s_N|s_2)\\ \vdots&\ddots&\vdots\\ p(s_1|s_N)&...&p(s_N|s_N) \end{matrix} \right] P=[p(st+1)=s∣st=s]=⎣⎢⎢⎢⎡p(s1∣s1)p(s1∣s2)⋮p(s1∣sN)......⋱...p(sN∣s1)p(sN∣s2)⋮p(sN∣sN)⎦⎥⎥⎥⎤
状态转换图中的一个链条即为Markov Chain。
Markov Reward Process(MRP) (S,P,R, γ \gamma γ)
MRP=Markov Chain+Reward
Markov Chain包含State和transition Probability matrix,而Reward包含Reward function R [ s t = s ] = E ( r t ∣ s t = s ) R[s_t=s]=\mathbb{E}(r_t|s_t=s) R[st=s]=E(rt∣st=s)和折扣因子 γ \gamma γ。
Horizon
Markov (Reward) Process分为有限步和无限步,其中记有限步中的序列的最大时间步数为Horizon。
Return
记从当前时间步t->Horizon的收益加权和为Reward,计算公式如下
G t = R t + 1 + γ R t + 2 + . . . + γ T − t − 1 R T G_t=R_{t+1}+\gamma R_{t+2}+...+\gamma^{T-t-1}R_T Gt=Rt+1+γRt+2+...+γT−t−1RT
状态价值 V t ( s ) V_t(s) Vt(s)
记对未来可能获得价值的当前表现,即状态s时当前时间步t的期望收益为状态价值 V t ( s ) V_t(s) Vt(s)。
V t ( s ) = E ( G t ∣ s t = s ) = E ( R t + 1 + γ R t + 2 + . . . + γ T − t − 1 R T ∣ s t = s ) V_t(s)=\mathbb{E}(G_t|s_t=s)=\mathbb{E}(R_{t+1}+\gamma R_{t+2}+...+\gamma^{T-t-1}R_T|s_t=s) Vt(s)=E(Gt∣st=s)=E(Rt+1+γRt+2+...+γT−t−1RT∣st=s)
上式的矩阵形式为