深度增强学习David Silver（二）——马尔科夫决策过程MDP

最新推荐文章于 2023-04-03 19:31:12 发布

abandon34209

最新推荐文章于 2023-04-03 19:31:12 发布

阅读量4.1k

点赞数 3

分类专栏： DRL

本文链接：https://blog.csdn.net/cs123951/article/details/71499510

版权

DRL 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

本节课分为四个部分：

Markov Processes（MP）
Markov Reward Processes（MRP）
Markov Decision Processes（MDP）
MDP扩展

上节课在讲完全可观察环境的时候有提到MDP，几乎所有的增强学习问题都可以简化为MDP问题。那么MDP是什么呢？首先谈一下Markov的性质：“The future is independent of the past given the present”，也就是给定当前状态，未来怎么样，从当前状态就可以得出——当前状态包含了历史的所有信息。

以下是MP、MRP和MDP的比较

比较	MP	MRP	MDP
定义	无记忆的随机过程，也就是一系列具有Markov性质的状态	具有价值的MP	带有决策的MRP
tuple	$\langle \cal{S},\cal{P}\rangle$	$\langle \cal{S},\cal{P},\color{red}{\cal{R},\cal{\gamma}}\rangle$	$\langle \cal{S},\cal{P},\color{red}{\cal{A}},\cal{R},\gamma \rangle$
备注	$\cal{S}$ 是状态的有限集合 $\cal{P}$ 是状态转移概率矩阵 $\cal{P}_{ss'}= \sf{P}[S_{t+1}=s'\|S_t=s]$	$\gamma$ 是折扣因子, $\gamma \in [0,1]$ $R_s=\sf{E}[R_{t+1}\|S_t=s]$	$A$ 是行动的有限集合 $\cal{P}_{ss'}^\color{red}{a}= \sf{P}[S_{t+1}=s'\|S_t=s,A_t=\color{red}{a}]$ , $R_s^\color{red}{a}=\sf{E}[R_{t+1}\|S_t=s,A_t=\color{red}{a}]$
价值函数		state-value function $v(s)=\sf{E}[G_t\|S_t=s]=\sf{E}[R_{t+1}+\gamma v(S_{t+1})\|S_t=s]$	state-value function $v_\pi(s)=\sf{E}_\pi[G_t\|S_t=s]$ action-value function $q_\pi(s,a)==\sf{E}_\pi[G_t\|S_t=s,A_t=a]$

其中 $G_t$ 是在时间t的总的带折扣的奖励值：

Gt=Rt+1+Rt+2+...=∑∞k=0γkRt+k+1 $G_t=R_{t+1}+R_{t+2}+...=\sum_{k=0}^\infty \gamma^k R_{t+k+1}$
MRP的价值函数可以用矩阵表示：

v=R+γPv $v=\cal{R}+\gamma \cal{P}v$
即

v=(I−γP)−1R $v=(I-\gamma \cal{P})^{-1}\cal{R}$
对于n个状态，复杂度是

O(n3) $O(n^3)$ ，当状态较少时，这个可以用，但是当状态较多时，计算量就很大。

MDP和MRP的价值函数略有不同，MDP增加了行动-价值函数 $q$ ，并且MDP的价值函数与策略相关。
策略 $\pi$ 是在给定状态的情况下行动的分布：

π(a|s)=P[At=a|St=s] $\pi(a|s)=\sf{P}[A_t=a|S_t=s]$
一个策略能够完全定义智能体的行为，因此：

Pπs,s′=∑a∈Aπ(a|s)Pass′ $\cal{P}_{s,s'}^\pi=\sum_{a \in \cal{A}}\pi(a|s)\cal{P}_{ss'}^a$

Rπs=∑a∈Aπ(a|s)Ras $\cal{R}_s^\pi=\sum_{a \in \cal{A}}\pi(a|s)\cal{R}_s^a$

MDP利用bellman方程计算得到的两个价值函数（Bellman Expectation Equation）：
这里写图片描述

以下分别是MRP和MDP的例子：
这里写图片描述

接下来讨论最优价值函数：

v∗(s)=maxπvπ(s) $v_*(s)=\mathop{max}_\pi v_\pi (s)$

q∗(s,a)=maxπqπ(s,a) $q_*(s,a)=\mathop{max}_\pi q_\pi(s,a)$
这里写图片描述

定义最优策略

π $\pi$ :

π≥π′ $\pi \ge\pi'$ if

vπ(s)≥vπ′(s),∀s $v_\pi(s) \ge v_{\pi'}(s), \forall s$
通过 找到最大化 $q_*(s,a)$ 对应的行动，可以找到最优策略，得到最优方程（Bellman Optimality Equation）。

v∗(s)=maxaq∗(s,a) $v_*(s)=\mathop{max}_a q_*(s,a)$ ,

q∗(s,a)=Ras+γ∑s′∈SPass′v∗(s′) $q_*(s,a)=\cal{R}_s^a+\gamma \sum_{s' \in S} \cal{P}_{ss'}^a v_*(s')$

v∗(s)=maxa(Ras+γ∑s′∈SPass′v∗(s′)) $v_*(s)=\mathop{max}_a (R_s^a+\gamma \sum_{s' \in S} \cal{P}_{ss'}^a v_*(s'))$

q∗(s,a)=Ras+γ∑s′∈SPass′q∗(s′,a′) $q_*(s,a)=\cal{R}_s^a+\gamma \sum_{s' \in S} \cal{P}_{ss'}^a q_*(s',a')$

Bellman Expectation Equation和Bellman Optimality Equation在后面会多次用到。

abandon34209

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
深度增强学习David Silver（二）——马尔科夫决策过程MDP

本节课分为四个部分：Markov Processes（MP）Markov Reward Processes（MRP）Markov Decision Processes（MDP）MDP扩展
复制链接

扫一扫