每天一个RL基础理论(5)——Sample Complexity(中）

最新推荐文章于 2024-08-19 19:55:55 发布

Nemo555

最新推荐文章于 2024-08-19 19:55:55 发布

阅读量1.4k

点赞数 1

分类专栏： Deep RL 文章标签：深度强化学习理论强化学习

本文链接：https://blog.csdn.net/weixin_40056577/article/details/121257919

版权

Deep RL 专栏收录该内容

27 篇文章

订阅专栏

CS6789-4（中）

一、样本复杂度的分析目标是什么？
二、最终目标的分析与拆解
三、相关公式的理解与梳理
四、在相关公式下的目标解析

搬砖来源：https://wensun.github.io/CS6789_fall_2021.html
细节来源：Model-Based Reinforcement Learning with a Generative Model is Minimax Optimal 2020 JMLR
主题：经典方法VI&PI在转移矩阵未知情况下，使用经典算法VI&PI达到near-optimal policy所需的样本复杂度
setting：infinite horizon discounted MDP / unknown transition probability / deterministic reward / deterministic policy
解决的问题：给定 $\mathcal M=(S,A,P,r,\gamma)$ ，其中转移矩阵 $P$ 未知，经典方法VI&PI需要多少的样本(transitions $(s, a, r, s^{'})$ )才能学习到near optimal的策略(deterministic & stationary)？
使用的理论工具：Statistics Theory

一、样本复杂度的分析目标是什么？

首先对未知的转移矩阵P，用均匀交互假设（generative model）进行建模
$\widehat P(s'\mid s,a)=\frac{\# (s',s,a)}{N}$
在 $\widehat M=(S,A,\widehat P,r,\gamma)$ 中使用VI算法学习到的元素均记为 $\widehat Q ,\widehat V$ ，其中 $\widehat \pi^\star,\widehat Q^\star,\widehat V^\star$ 分别为基于 $\widehat M$ 的最优策略、Q值、V值，而我们最想要的是真实 $P,r,\gamma)$ 中对应的 $\pi^\star$
下面用 $\epsilon$ 来量化near-optimal的“near optimal”的程度，可简记为 $\|V^\star-V^\pi\|_\infty\leq \epsilon_V$
$V^\star(s)-V^\pi(s)\leq \epsilon_V \quad \forall s$
第n次迭代得到的策略 $\pi_n=\argmax_a Q^{\pi_n}(s,a)$ ，其与最优策略 $\pi^\star$ 的性能满足：
$V^{\pi_n}\geq V^\star(s)-\frac{2\gamma^n}{1-\gamma}||Q_0-Q^\star||_{\infty} \quad \forall s\in S$ 因为V和Q之间的关系可以通过以上公式进行转换，所以最终目标可以选择分析Q函数，毕竟在VI或PI算法均以Q为直接迭代对象
$Q^\star(s,a)-\widehat Q^{\hat \pi_n}(s,a)\leq \epsilon_{Q} \quad \forall s,a$
因此只需要寻找 $\epsilon_Q$ 与 $N$ 的关系，就可以回答样本复杂度的问题：对转移矩阵建模后，想用VI算法得到一个 $\epsilon$ -optimal的策略，至少需要哪个量级的样本数 $N$ ？

二、最终目标的分析与拆解

先对最终目标进行放缩，找它的上界
$\|Q^\star-\widehat Q^{\hat \pi_n}\|_\infty\leq \|Q^\star-\widehat{Q}^\star\|_\infty + \|\widehat Q^\star - \widehat Q^{\hat\pi_n}\|_\infty$
$\|\widehat Q^\star - \widehat Q^{\hat\pi_n}\|_\infty$ 这项并不难，其对应的是MDP已知的planning问题，在VI的Computational Complexity中可知
$\begin{aligned} &\|\widehat Q^\star - \widehat Q^{\hat\pi_n}\|_\infty\leq\gamma^n\|\widehat Q_0-\widehat Q^\star\|_\infty\leq \gamma^n\frac{1}{1-\gamma}\\ &=(1-(1-\gamma))^n\frac{1}{1-\gamma}\\ &\leq \exp(-(1-\gamma)n)\frac{1}{1-\gamma}\leq \epsilon_{opt} \end{aligned}$
因此在 $n\geq O((1-\gamma)^{-1}\ln\epsilon_{opt}^{-1})$ 这个量级的迭代步数后，有 $\|\widehat Q^\star - \widehat Q^{\hat\pi_n}\|_\infty\leq \epsilon_{opt}$ ，这个称作optimization error，也即 $\epsilon_{opt}$ 下标的来源
难点在 $\|Q^\star-\widehat{Q}^\star\|_\infty$ 这一项中，先将它写完整进行细看（optimal policy可以是deterministic的！）对一个 $(s, a)$ 而言，有
$\widehat Q^\star(s,a)-Q^\star(s,a)=r(s,a)+\gamma\mathbb E_{s'\sim \widehat p(\cdot|s,a)}[\widehat Q(s',\widehat \pi^\star(s'))]-r(s,a)-\gamma \mathbb E_{s'\sim p(\cdot|s,a)}[Q(s',\pi^\star(s'))]$ 首先，Q函数不同，其次，策略也不同，似乎一筹莫展，先回忆一下

三、相关公式的理解与梳理

2.1 Bellman Consistency Equation

$\begin{aligned} V^\pi(s)&=\mathbb E_{a\sim \pi(\cdot\mid s)}\left[Q^\pi(s,a)\right] \quad \text{(V-Q)}\\ Q^\pi(s,a)&= r(s,a) + \gamma \mathbb E_{s'\sim p(\cdot\mid s,a)}\left[V^\pi(s')\right]\quad \text{(Q-V)}\\ V^\pi(s)&=\mathbb E_{a\sim \pi(\cdot\mid s)}\left[ r(s,a) + \gamma \mathbb E_{s'\sim p(\cdot\mid s,a)}\left[V^\pi(s')\right]\right]\quad \text{(V-V)}\\ Q^\pi(s,a)&=r(s,a) + \gamma \mathbb E_{s'\sim p(\cdot\mid s,a)}\left[\mathbb E_{a'\sim \pi(\cdot\mid s')}\left[Q^\pi(s',a')\right]\right]\quad\text{(Q-Q)}\\ \end{aligned}$

引入操作符 $P^\pi$ 简写(Q-Q)式： $Q^\pi=r+\gamma P^\pi Q^\pi$ ，这可从矩阵形式进行理解，其中矩阵每一项的具体值为 $P^\pi_{(s,a,s',a')}=p(s'|s,a)\pi(a'|s')$ $Q^\pi(\in \mathbb R^{|S||A|\times 1})=r(\in \mathbb R^{|S||A|\times 1})+\gamma P^\pi(\in\mathbb R^{|S||A|\times |S||A|}) Q^\pi(\in \mathbb R^{|S||A|\times 1})$
同理，引入操作符 $P$ 简写(Q-V)式： $Q^\pi=r+\gamma PV^\pi$
因此基于consistency的Q函数有closed-form的表述 $Q^\pi=(I-\gamma P^\pi)^{-1}r$
$Q^\pi$ 对于其空间内的每一个点 $(s, a)$ 定义为 $Q^\pi(s,a)=\mathbb E\left[\sum_{t=0}^\infty\gamma^tr(s_t,a_t)\Big|s_0=s,a_0=a\right]$
因此便可直接推出关于 $(I-\gamma P^\pi)^{-1}$ 的引理，即该可逆矩阵其中每一项为（ $\Pr$ 代表从 $s_0=s,a_0=a$ 出发在转移矩阵和策略的作用下，在t时刻遇到 $(s^{'}, a^{'})$ 的概率）
$(I-\gamma P^\pi)^{-1}_{(s,a),(s',a')}=\sum_{t=0}^\infty \gamma^t\Pr\left(s_t=s',a_t=a'|s_0=s,a_0=a\right)\leq \frac{1}{1-\gamma}$
在前面知道这玩意是可逆的即 $\begin{aligned} ||(I-\gamma P^{\pi})x||_{\infty}&=||x-\gamma P^{\pi}x||_{\infty}\\ &\geq ||x||_{\infty}-||\gamma P^\pi x||_{\infty}\text{(两者差的最大值>= 两者最大值之差)}\\ &\geq ||x||_{\infty}-\gamma ||x||_\infty \text{（$P^\pi$转移矩阵的定义)}\\ &=(1-\gamma)||x||_\infty >0 \end{aligned}$
所以易得不等式 $\|(I-\gamma P^\pi)^{-1}v\|_\infty \leq \frac{\|v\|_\infty}{1-\gamma}$

要知道这小节全都是根据定义推出的，即Bellman consistency在所有setting下均适用，没有deterministic policy的假设，得与Bellman optimality进行区分

2.2 Simulation Lemma

基于2.1 Bellman Consistency中介绍的操作符 $P^\pi$ ，对于任意的策略 $\pi$ 有如下等式
$\begin{aligned} Q^{\pi}-\widehat{Q}^{\pi} &=\left(I-\gamma P^{\pi}\right)^{-1} r-\left(I-\gamma \widehat{P}^{\pi}\right)^{-1} r \\ &=\left(I-\gamma \widehat{P}^{\pi}\right)^{-1}\left((I-\gamma \widehat{P}^{\pi})(I-\gamma P^{\pi})^{-1} -I\right)r\\ &=\left(I-\gamma \widehat{P}^{\pi}\right)^{-1}\left((I-\gamma \widehat{P}^{\pi})-(I-\gamma P^{\pi}) \right)(I-\gamma P^{\pi})^{-1} r\\ &=\left(I-\gamma \widehat{P}^{\pi}\right)^{-1}\left(\left(I-\gamma \widehat{P}^{\pi}\right)-\left(I-\gamma P^{\pi}\right)\right) Q^{\pi} \\ &=\gamma\left(I-\gamma \widehat{P}^{\pi}\right)^{-1}\left(P^{\pi}-\widehat{P}^{\pi}\right) Q^{\pi} \\ &=\gamma\left(I-\gamma \widehat{P}^{\pi}\right)^{-1}(P-\widehat{P}) V^{\pi} \end{aligned}$

$\begin{aligned} Q^{\pi}-\widehat{Q}^{\pi} &=\left(I-\gamma P^{\pi}\right)^{-1} r-(I-\gamma \widehat{P}^{\pi})^{-1} r \\ &=(I-\gamma P^\pi)^{-1}\left(I-(I-\gamma P^\pi)(I-\gamma \widehat{P}^{\pi})^{-1}\right)r\\ &=(I-\gamma P^\pi)^{-1}\left((I-\gamma \widehat{P}^{\pi})-(I-\gamma P^\pi)\right)(I-\gamma \widehat{P}^{\pi})^{-1}r\\ &=\gamma(I-\gamma P^\pi)^{-1}(P^\pi-\widehat P^\pi)\widehat Q^\pi\\ &=\gamma(I-\gamma P^\pi)^{-1}(P-\widehat P)\widehat V^\pi \end{aligned}$

特点是策略相同，Q不同；而Q的不同之处在于P还是 $\widehat P$ ，只与simulator有关，所以称为Simulation Lemma

2.3 Component-wise Bound

这是个著名的上下界，直接操作的对象是我们一筹莫展的 $\|Q^\star-\widehat{Q}^\star\|_\infty$

上界
$\begin{aligned} Q^\star-\widehat{Q}^\star&=Q^{\pi^\star}-\widehat Q^{\hat \pi^\star}\leq Q^{\pi^\star}-\widehat Q^{\pi^\star}\text{(换成相同策略)}\\ &=\gamma\left(I-\gamma \widehat{P}^{\pi^\star}\right)^{-1}(P-\widehat{P}) V^{\pi^\star}\text{(first simulation lemma)}\\ &=\gamma\left(I-\gamma P^{\pi^\star}\right)^{-1}(P-\widehat P)\widehat V^{\pi^\star}\text{(second simulation leamma)} \end{aligned}$
下界
$\begin{aligned} Q^\star-\widehat{Q}^\star&=Q^{\pi^\star}-\widehat Q^{\hat \pi^\star}\\ &=(I-\gamma P^{\pi^\star})^{-1}r-(I-\gamma \widehat P^{\hat \pi^\star})^{-1}r\\ &=(I-\gamma \widehat P^{\hat \pi^\star})^{-1}\left((I-\gamma \widehat P^{\hat \pi^\star})(I-\gamma P^{\pi^\star})^{-1}-I\right)r\\ &=(I-\gamma \widehat P^{\hat \pi^\star})^{-1}\left((I-\gamma \widehat P^{\hat \pi^\star})-(I-\gamma P^{\pi^\star})\right)(I-\gamma P^{\pi^\star})^{-1}r\\ &=\gamma(I-\gamma \widehat P^{\hat \pi^\star})^{-1}\left(P^{\pi^\star}-\widehat P^{\hat \pi^\star}\right)Q^\star\\ &\geq \gamma(I-\gamma \widehat P^{\hat \pi^\star})^{-1}\left(P^{\pi^\star}-\widehat P^{\pi^\star}\right)Q^\star\text{ ($\star$)}\\ &=\gamma(I-\gamma \widehat P^{\hat \pi^\star})^{-1}\left(P-\widehat P\right)V^\star \end{aligned}$

因此Componet-wise bound为 $\gamma(I-\gamma \widehat P^{\hat \pi^\star})^{-1}\left(P-\widehat P\right)V^\star\leq Q^\star-\widehat{Q}^\star\leq \gamma\left(I-\gamma \widehat{P}^{\pi^\star}\right)^{-1}(P-\widehat{P}) V^{\star}$

Component-wise的bound无非是在simulation lemma的证明基础上，使用了两个小不等式：上界使用了 $Q^{\pi^\star}-\widehat Q^{\hat \pi^\star}\leq Q^{\pi^\star}-\widehat Q^{\pi^\star}$ ，下界在 $(\star)$ 处使用了 $\widehat P^{\hat \pi^\star}Q^\star \leq \widehat P^{\pi^\star}Q^\star$

四、在相关公式下的目标解析

使用component wide bound，有两种关于目标 $Q^\star-\widehat{Q}^\star$ 的上界即 $\begin{aligned} &Q^\star-\widehat{Q}^\star\leq\gamma\left(I-\gamma \widehat{P}^{\pi^\star}\right)^{-1}(P-\widehat{P}) V^{\pi^\star}\\ &Q^\star-\widehat{Q}^\star\leq\gamma\left(I-\gamma P^{\pi^\star}\right)^{-1}(P-\widehat P)\widehat V^{\pi^\star} \end{aligned}$
接下来问题是，究竟哪个比较好bound住？
- 是否有相关公式来表述 $(P-\widehat{P}) V^{\pi^\star}$ 或 $(P-\widehat P)\widehat V^{\pi^\star}$
- 是否有相关公式来表述 $\left(I-\gamma \widehat{P}^{\pi^\star}\right)^{-1}$ 或 $\left(I-\gamma P^{\pi^\star}\right)^{-1}$
- 怎么以一定的概率来bound住这些量？
且听下回分解