【RL】2.马尔可夫决策过程

这篇博客介绍了马尔可夫决策过程(MDP),包括马尔可夫性质、Markov Chain、Markov Reward Process和MDP的基本概念。讨论了折扣因子γ的意义,并通过例子解释了状态价值函数V(s)的计算。同时,还涵盖了Policy Evaluation、Policy iteration和Value iteration在MDP中的应用。
摘要由CSDN通过智能技术生成

RL-Ch2-马尔可夫决策过程

前情回顾

RL Agent的核心元素为model,value,policy。

课程大纲

  • Markov Chain–>Markov Reward Process–>Markov Decision Process
  • Policy evaluation in MDP
  • Policy iteration and value iteration

引入

上章图1的RL过程可转化为MDP,但是MDP下的环境是完全可观测的,很多时候环境不完全可观测时也可通过一些方法转化为MDP。

Markov性质

Markov Property指的是未来的状态只取决于当下的状态,而独立于过去的状态

令历史状态序列为 h t = S 1 , S 2 , . . . , S t h_t={S_1,S_2,...,S_t} ht=S1,S2,...,St,若 S t S_t St满足Markov Property,则有如下式子成立
P ( S t + 1 ∣ S t ) = P ( S t + 1 ∣ h t ) P(S_{t+1}|S_t)=P(S_{t+1}|h_t) P(St+1St)=P(St+1ht)

P ( S t + 1 ∣ S t , a t ) = P ( S t + 1 ∣ h t , a t ) P(S_{t+1}|S_t,a_t)=P(S_{t+1}|h_t,a_t) P(St+1St,at)=P(St+1ht,at)

Markov Chain (S,P)

图1为状态转换图,图中包含有状态(State)和转移矩阵(Probability)。

在这里插入图片描述

图1 二维的Markov Chain

状态转移矩阵可写为
P = [ p ( s t + 1 ) = s ∣ s t = s ] = [ p ( s 1 ∣ s 1 ) . . . p ( s N ∣ s 1 ) p ( s 1 ∣ s 2 ) . . . p ( s N ∣ s 2 ) ⋮ ⋱ ⋮ p ( s 1 ∣ s N ) . . . p ( s N ∣ s N ) ] P=[p(s_{t+1})=s|s_t=s]=\left[ \begin{matrix} p(s_1|s_1)&...&p(s_N|s_1)\\ p(s_1|s_2)&...&p(s_N|s_2)\\ \vdots&\ddots&\vdots\\ p(s_1|s_N)&...&p(s_N|s_N) \end{matrix} \right] P=[p(st+1)=sst=s]=p(s1s1)p(s1s2)p(s1sN).........p(sNs1)p(sNs2)p(sNsN)

状态转换图中的一个链条即为Markov Chain。

Markov Reward Process(MRP) (S,P,R, γ \gamma γ)

MRP=Markov Chain+Reward

Markov Chain包含State和transition Probability matrix,而Reward包含Reward function R [ s t = s ] = E ( r t ∣ s t = s ) R[s_t=s]=\mathbb{E}(r_t|s_t=s) R[st=s]=E(rtst=s)和折扣因子 γ \gamma γ

Horizon

Markov (Reward) Process分为有限步和无限步,其中记有限步中的序列的最大时间步数为Horizon。

Return

记从当前时间步t->Horizon的收益加权和为Reward,计算公式如下
G t = R t + 1 + γ R t + 2 + . . . + γ T − t − 1 R T G_t=R_{t+1}+\gamma R_{t+2}+...+\gamma^{T-t-1}R_T Gt=Rt+1+γRt+2+...+γTt1RT

状态价值 V t ( s ) V_t(s) Vt(s)

记对未来可能获得价值的当前表现,即状态s时当前时间步t的期望收益为状态价值 V t ( s ) V_t(s) Vt(s)
V t ( s ) = E ( G t ∣ s t = s ) = E ( R t + 1 + γ R t + 2 + . . . + γ T − t − 1 R T ∣ s t = s ) V_t(s)=\mathbb{E}(G_t|s_t=s)=\mathbb{E}(R_{t+1}+\gamma R_{t+2}+...+\gamma^{T-t-1}R_T|s_t=s) Vt(s)=E(Gtst=s)=E(Rt+1+γRt+2+...+γTt1RTst=s)
上式的矩阵形式为

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值