【统计强化学习】MDP上的规划

最新推荐文章于 2024-05-21 09:34:50 发布

Flower_For_Algernon

最新推荐文章于 2024-05-21 09:34:50 发布

阅读量301

点赞数

分类专栏：强化学习文章标签：统计强化学习

本文链接：https://blog.csdn.net/Flowers_for_Algernon/article/details/123199751

版权

本系列文章主要参考UIUC姜楠老师开设的cs542

文章目录

策略迭代
值迭代
线性规划

规划（Planning）问题是基于给定的已知的 MDP

M=(\mathcal{S}, \mathcal{A}, P, R, \gamma)

，计算最优策略

\pi_M^*

，这里讨论

Q^*

的计算。本章将介绍用来求解规划问题的策略迭代算法、值迭代算法、以及线性规划算法。

策略迭代

策略迭代算法为从任意初始策略 $\pi_0$ 开始，不断重复下述步骤：
$\pi_k = \pi_{Q^{\pi_{k-1}}}$

即在每次迭代中，先进行策略评估，即基于公式 $V^\pi = (\bold{I}_{|\mathcal{S}|} - \gamma P^\pi)^{-1} R^\pi$ 计算策略 $\pi_{k-1}$ 下的动作值函数，更一般地，是使用贝尔曼算子不断更新当前的动作值函数，直至收敛到不动点，并使用这个不动点来作为当前策略对应的动作值函数，即 $\lim_{N \rightarrow \infty} (\mathcal{T}^\pi)^N V = V^\pi$ ；然后进行策略改进，即基于公式 $\pi(s) = \arg\max_{a \in \mathcal{A}} Q(s,a)$ 计算该动作值函数下的策略。

首先介绍策略改进定理（Policy improvement theorem），以证明策略迭代算法的收敛性：在策略迭代算法中，对于所有 $k\ge1$ 以及 $s\in\mathcal{S}$ ， $a\in\mathcal{A}$ ，都有 $V^{\pi_k}(s) \ge V^{\pi_{k-1}}(s)$ 成立，并且直至 $\pi^*$ 被找到之前，每次迭代中都能保证有至少一个状态是严格大于的。

因此，策略迭代算法的终止条件为 $Q^{\pi_k}=Q^{\pi_{k-1}}$ 。另外，可以证明策略迭代算法最多只需要迭代 $|\mathcal{A}|^{|\mathcal{S}|}$ 次：若前一次迭代的策略和后一次迭代的策略一样，那么迭代收敛，最优策略被找到；由于每次迭代值函数都不会变得更差，因此当前迭代中获取的策略与之前迭代过程中得到的策略都不同；因此，策略空间的大小即为最坏情况下的策略迭代算法收敛所需要的迭代次数。

下面将从两个角度来证明策略改进定理。对于第一个角度，这里先引入优势这个概念：给定策略 $\pi$ ，在状态 $s$ 下动作 $a$ 的优势定义为 $A^\pi(s,a):=Q^\pi(s,a)-V^\pi(s)$ 。因此策略 $\pi'$ 相比于策略 $\pi$ 的优势为 $A^\pi(s,\pi'):=A^\pi(s,\pi'(s))$ 。另外，优势函数还有一个性质是 $A^\pi(s,\pi(s))=0$ 。由于策略改进过程是将当前的动作值函数中值最大的动作来更新策略，所以迭代后策略相比于迭代前策略的优势函数是非负的。另一方面，由于迭代前后的策略值函数的差异可以通过优势函数线性组合表示，因此 $V^{\pi_k}(s) - V^{\pi_{k-1}}(s)$ 就可以被分解成多个非负项之和，即策略迭代过程中值函数是只增不减的，从而证明了策略改进定理。下面证明值函数的差异能够用优势函数线性组合来表示。

这里引入引理 Performance Difference Lemma：对于任意 $\pi$ 和 $\pi'$ ，以及任意状态 $s\in\mathcal{S}$ ，有：
$V^{\pi'}(s) - V^\pi(s) = \frac{1}{1 - \gamma} \mathbb{E}_{s' \sim d^{\pi',s}}[A^\pi(s',\pi')]$

其中 $d^{\pi',s}$ 表示给定策略 $\pi'$ 以及初始状态 $s$ 下的 normalized discounted state occupancy。证明该引理的过程如下。考虑一个策略序列 $\{\pi_i\}_{i\ge0}$ ，对于任意 $i$ ， $\pi_i$ 表示在前 $i$ 个时间步按策略 $\pi'$ 选择动作，之后就按策略 $\pi$ 选择动作。有 $\pi_0=\pi$ ， $\pi_\infty=\pi'$ 。则上式可写成：
$V^{\pi'}(s) - V^\pi(s) = \sum_{i=0}^\infty (V^{\pi_{i+1}}(s) - V^{\pi_i}(s))$

此时，对于右式中的每一项， $\pi_i$ 和 $\pi_{i+1}$ 的前 $i$ 步都是按策略 $\pi'$ 选择动作，所以在两个策略下轨迹的前 $i + 1$ 步的状态都是一致的，在 $i + 1$ 步的状态上才选择不同的动作，而此时不同的动作就导致后续转移到的状态的概率分布发生变化，因此有以下推导：
$V^{\pi_{i+1}}(s) - V^{\pi_i}(s) = \gamma^i\sum_{s'}\mathbb{P}[s_{i+1}=s'|s_i=s,\pi'](Q^\pi(s',\pi')-Q^\pi(s',\pi))$

由于前 $i$ 步的状态相同，所以可以消掉轨迹的前 $i$ 步计算。而由于第 $i + 1$ 步策略开始变化，所以将 $s_{i+1}$ 记为 $s^{'}$ ，计算此步下不同状态转移情况的值。另外，由于此处离起始状态 $s$ 相隔 $i + 1$ 步，所以此处的值需要乘上 $\gamma^i$ 的折扣。遍历 $i + 1$ 步下的所有状态 $s^{'}$ ，到达每个 $s^{'}$ 的概率为 $\mathbb{P}[s_{i+1}=s'|s_i=s,\pi']$ ，对于 $\pi_{i+1}$ ，在 $i + 1$ 步下仍会根据 $\pi'$ 选择动作，所以后续轨迹的值为 $Q^\pi(s',\pi')$ ，表示在 $s^{'}$ 下根据 $\pi'$ 执行动作，但是后续会根据 $\pi$ 执行，所以后续的值可用 $Q^\pi$ 计算；同理，对于 $\pi_i$ ，在 $i + 1$ 步下就转为根据 $\pi$ 选择动作，所以可直接用 $Q^\pi(s',\pi)$ 表示轨迹后续的值。因此代入上式，得：
$\begin{aligned} \\ V^{\pi'}(s) - V^\pi(s) &= \sum_{i=0}^\infty \gamma^i \sum_{s'\in\mathcal{S}} \mathbb{P}[s_{i+1}=s'|s_1=s,\pi'] (Q^\pi(s',\pi')-Q^\pi(s',\pi)) \\ &= \sum_{i=0}^\infty \gamma^i \sum_{s'\in\mathcal{S}} \mathbb{P}[s_{i+1}=s'|s_1=s,\pi'] (Q^\pi(s',\pi')-V^\pi(s')) \\ &=\sum_{i=0}^\infty \gamma^i \sum_{s'\in\mathcal{S}} \mathbb{P}[s_{i+1}=s'|s_1=s,\pi'] A^\pi(s',\pi') \end{aligned} \\$

最低0.47元/天解锁文章

Flower_For_Algernon

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【统计强化学习】MDP上的规划

本系列文章主要参考UIUC姜楠老师开设的cs542文章目录策略迭代值迭代线性规划规划（Planning）问题是基于给定的已知的 MDP M=(S,A,P,R,γ)M=(\mathcal{S}, \mathcal{A}, P, R, \gamma)M=(S,A,P,R,γ)，计算最优策略 πM∗\pi_M^*πM∗，这里讨论 Q∗Q^*Q∗ 的计算。本章将介绍用来求解规划问题的策略迭代算法、值迭代算法、以及线性规划算法。策略迭代策略迭代算法为从任意初始策略 π0\pi_0π0 开始，不断重复下述步
复制链接

扫一扫