强化学习(三）：马尔可夫决策过程MDP【下篇】

最新推荐文章于 2025-04-05 13:26:54 发布

wamg潇潇

最新推荐文章于 2025-04-05 13:26:54 发布

阅读量2.6k

点赞数 2

分类专栏：深度强化学习

本文链接：https://blog.csdn.net/qq_29831163/article/details/101632695

版权

深度强化学习专栏收录该内容

4 篇文章

订阅专栏

马尔可夫决策过程MDP： a Markov reward process with decisions

最优值函数 Optimal Value Function

最优策略

Bellman最优方程Optimality Equation

MDPs 的扩展

Ergodic Markov Process 遍历马氏过程

Average Reward Value Function

马尔可夫决策过程MDP： a Markov reward process with decisions

策略

给定状态s下的动作的分布函数就是policy $\large \pi$ ，它完全定义了agent的行为。

MDP过程仅取决于当前的状态，而不是历史信息H，也就是说，策略是稳态分布（stationary ，time-independent） $\large A_{t} \sim \pi\left(\cdot | S_{t}\right), \forall t>0$
给定一个 MDP $\large \mathcal{M}=\langle\mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R}, \gamma\rangle$ 和一个 policy π，
状态序列 $S_{1}, S_{2}, \dots$ ..是一个马尔可夫过程 $\left\langle\mathcal{S}, \mathcal{P}^{\pi}\right\rangle$
状态序列和回报序列组成的 $S_{1}, R_{2}, S_{2}, \ldots$ 是马尔科夫回报过程 $\left\langle\mathcal{S}, \mathcal{P}^{\pi}, \mathcal{R}^{\pi}, \gamma\right\rangle$

其中 $\begin{aligned} \mathcal{P}_{s, s^{\prime}}^{\pi} &=\sum_{a \in \mathcal{A}} \pi(a | s) \mathcal{P}_{s s^{\prime}}^{a}\,\: ; \: \: \: \: \: \: \mathcal{R}_{s}^{\pi} &=\sum_{a \in \mathcal{A}} \pi(a | s) \mathcal{R}_{s}^{a} \end{aligned}$

值函数

根据策略 $\large \pi$ 采取的行为不同，所得的回报也不尽相同。

状态-值函数反映了在状态s处，根据策略 $\large \pi$ 对所有的动作采样，的结果会有多好。

一个MDP的状态 - 值函数 $\large $ v_{\pi}(s) $$ 是从状态s开始，并后续采取策略 $\large \pi$ 的回报的期望值：

$\large $ v_{\pi}(s)=\mathbb{E}_{\pi}\left[G_{t} | S_{t}=s\right] $$

动作 - 值函数 $\large $ q_{\pi}(s, a)$ 是在状态s 采取动作a,并后续采取策略 $\large \pi$ 的回报的期望值

$\large $ q_{\pi}(s, a)=\mathbb{E}_{\pi}\left[G_{t} | S_{t}=s, A_{t}=a\right] $$

Example: State-Value Function for Student MDP

Bellman 期望公式

state-value function = immediate reward + discounted value of successor state,状态值函数可以分解为直接汇报加上后继状态的折扣State值。

$\large $$ v_{\pi}(s)=\mathbb{E}_{\pi}\left[R_{t+1}+\gamma v_{\pi}\left(S_{t+1}\right) | S_{t}=s\right] $$$

动作-值函数可以分解为 $\large $$ q_{\pi}(s, a)=\mathbb{E}_{\pi}\left[R_{t+1}+\gamma q_{\pi}\left(S_{t+1}, A_{t+1}\right) | S_{t}=s, A_{t}=a\right] $$$

Example: Bellman期望公式 in Student MDP

只考虑红色圆圈的这个state，它表示class 3 ，我们要验证用Bellman期望公式计算的值函数无恶是维7.4.

在class 3 这个状态下，去pub 和学习的概率各为50%，在这个策略下，以50%的概率去pub后又各以0.2，0.4，0.4的概率去class1，class2, class3, .

Bellman期望公式的矩阵形式

$\large $$ v_{\pi}=\mathcal{R}^{\pi}+\gamma \mathcal{P}^{\pi} v_{\pi} $$$

求出解的形式：

$\large $$ v_{\pi}=\left(I-\gamma \mathcal{P}^{\pi}\right)^{-1} \mathcal{R}^{\pi} $$$

最优值函数 Optimal Value Function

根据MDP可以得到不同的策略，最优值函数指出了MDP中的最佳表现，当我们已知一个MDP的最优值 $\large f_{n}$ 时，可认为已经求解出这个MDP了。

最优策略对应的V值就是最优V值，对应的Q值就是最优Q值。

最优状态-值函数： the maximum value function over all policies

$\large $$ v_{*}(s)=\max _{\pi} v_{\pi}(s) $$$

最优动作-值函数： the maximum action-value function over all policies

$\large $$ q_{*}(s, a)=\max _{\pi} q_{\pi}(s, a) $$$

最优策略

怎样可以判定一个策略要优于另一个策略？这需要我们先对所有策略定义一个偏序[ partial ordering]：其中 $\large $$ \pi \, , \pi^{\prime}\,$ 表示任意的两个策略,在所有状态s下，一个策略 $\large $$ \pi \,$ 的值函数都大于等于另一个策略 $\large \pi^{\prime}\,$ 的值函数时，我们认为 $\large $$ \pi \geq \pi^{\prime}\,$ ，

$\large $$ \pi \geq \pi^{\prime}\, \, \, \text { if } v_{\pi}(s) \geq v_{\pi^{\prime}}(s), \forall s $$$

Theorem

对任一MDP，总存在一个最优策略 $\large \pi _{*}$ 要优于其他所有策略： $\large $$ \pi_{*} \geq \pi, \forall \pi $$$

当有多个最优策略时，所有的最优策略的最优值函数相等： $\large $$ v_{\pi_{*}}(s)=v_{*}(s) $$$

当有多个最优策略时，所有的最优策略的最优动作-值函数相等： $\large $$ q_{\pi_{*}}(s, a)=q_{*}(s, a) $$$

怎么求出最优策略？ —— 最大化 $\large q_{*}(s, a)$ ,

对任一的MDP，总存在一个确定的最优策略，如果已知 $\large q_{*}(s, a)$ ，那么最优策略可立即求解。

$\large $$ \pi_{*}(a | s)=\left\{\begin{array}{ll}{1} & {\text { if } a=\operatorname{argmax}_{a \in \mathcal{A}} q_{*}(s, a)} \\ {0} & {\text { otherwise }}\end{array}\right. $$$

Bellman最优方程Optimality Equation

贝尔曼最优方程描述了如何求解MDP方程，如何把它们和最优值函数联系起来。

贝尔曼最优方程时非线性的，通常没有闭解【closed form solution】，但是有很多迭代方法可以求解：Value Iteration值迭代、 Policy Iteration策略迭代、 Q-learning 、Sarsa。

MDPs 的扩展

Inﬁnite and continuous MDPs ；有以下几种情形：

无限可数的状态/动作空间；

连续的状态/动作空间：线性二次模型的闭解形式【linear quadratic model (LQR)】

连续时间：需要用偏微分方程、Hamilton-Jacobi-Bellman (HJB)方程、当时间步趋于0时是贝尔曼方程的极限情形。

Partially observable MDPs 【POMDPs】：具有隐状态的MDP

Belief States

history $\large H_{t}$ 是动作、观测和回报构成的序列： $\large $$ H_{t}=A_{0}, O_{1}, R_{1}, \ldots, A_{t-1}, O_{t}, R_{t} $$$

belief state b(h) 是基于历史数据H的状态的概率分布，

$\large $$ b(h)=\left(\mathbb{P}\left[S_{t}=s^{1} | H_{t}=h\right], \ldots, \mathbb{P}\left[S_{t}=s^{n} | H_{t}=h\right]\right) $$$

Reductions of POMDPs

历史信息 $\large H_{t}$ 满足马尔可夫性；信念状态 $\large $$ b\left(H_{t}\right) $$$ 也满足马尔可夫性；

POMDP 可以被分解为一个 (inﬁnite) history tree 和 belief state tree

Undiscounted, average reward MDPs

Ergodic Markov Process 遍历马氏过程

循环性Recurrent：每个状态会被访问无数次
非周期的 Aperiodic ：每个状态的访问没有系统周期

Theorem

一个遍历马氏过程具有一个极限稳态分布 $\large $$ d^{\pi}(s) $$$ ，它满足以下性质：

$\large $$ d^{\pi}(s)=\sum_{s^{\prime} \in \mathcal{S}} d^{\pi}\left(s^{\prime}\right) \mathcal{P}_{s^{\prime} s} $$$

如果一个马氏链是由一个有遍历性的策略推导而来，那么这个MDP具有遍历性【ergodic.】

对任一策略 $\large \pi$ ，一个遍历MDP的 $\large $$ \rho^{\pi}$ 是独立于起始状态的， $\large $$ \rho^{\pi}$ 是每个时间步的平均回报。

$\large $$ \rho^{\pi}=\lim _{T \rightarrow \infty} \frac{1}{T} \mathbb{E}\left[\sum_{t=1}^{T} R_{t}\right] $$$

Average Reward Value Function

   undiscounted, ergodic MDP 的值函数可以表示为平均回报的函数。

         $\large $$ \tilde{v}_{\pi}(s)$ 是以s为起始状态的超额回报【extra reward】

             $\large $$ \tilde{v}_{\pi}(s)=\mathbb{E}_{\pi}\left[\sum_{k=1}^{\infty}\left(R_{t+k}-\rho^{\pi}\right) | S_{t}=s\right] $$$

相应的平均回报的贝尔曼方程可表示为

$\large $$ \begin{aligned} \tilde{v}_{\pi}(s) &=\mathbb{E}_{\pi}\left[\left(R_{t+1}-\rho^{\pi}\right)+\sum_{k=1}^{\infty}\left(R_{t+k+1}-\rho^{\pi}\right) | S_{t}=s\right] \\ &=\mathbb{E}_{\pi}\left[\left(R_{t+1}-\rho^{\pi}\right)+\tilde{v}_{\pi}\left(S_{t+1}\right) | S_{t}=s\right] \end{aligned} $$$