每天一个RL基础理论(4)——Sample Complexity(上）

最新推荐文章于 2022-08-03 23:20:27 发布

Nemo555

最新推荐文章于 2022-08-03 23:20:27 发布

阅读量828

点赞数 4

分类专栏： Deep RL 文章标签：强化学习理论

本文链接：https://blog.csdn.net/weixin_40056577/article/details/121217775

版权

Deep RL 专栏收录该内容

27 篇文章 49 订阅

订阅专栏

CS6789-4（上）

一、Naive Model-based Approach
总结

搬砖来源：https://wensun.github.io/CS6789_fall_2021.html
主题：经典方法VI&PI在转移矩阵未知情况下，达到near-optimal policy所需的样本复杂度
setting：infinite horizon discounted MDP / unknown transition probability / deterministic reward / deterministic policy
解决的问题：给定 $\mathcal M=(S,A,P,r,\gamma)$ ，其中转移矩阵 $P$ 未知，经典方法VI&PI需要多少的样本(transitions $(s, a, r, s^{'})$ )才能学习到near optimal的策略(deterministic & stationary)？
使用的理论工具：Statistics Theory

原本setting可以看作是：infinite horizon discounted( $H\rightarrow \infty$ ) + finite state&action( $S, A$ ) + known reward ( $r (s, a)$ ) + probably fixed discount( $\gamma$ ) + known transition matrix ( $P$ )
这节在原本的setting下引入了一个非常关键的点：转移矩阵(transition matrix)是未知的。
回答主要问题是：需要与环境交互多少次，获得对应的observed transitions $(s, a, r, s^{'})$ 才能估计最优策略 $\pi^\star$

在讨论sample complexity之前有个exploration的问题，即如果根据现有估计的转移矩阵 $\widehat P$ 和策略 $\pi$ 进行交互的话，有一些状态就有可能访问不到。这样又要先解决exploration的问题，才能分析sample complexity，所以这里弄一个大前提！

均匀的交互假设：在每个状态动作对 $(s,a)\in S\times A$ 都能与环境交互 $N$ 次，即能在 $(s, a)$ 下对真实的环境 $p(\cdot\mid s,a)$ 交互 $N$ 次，得到 $N$ 个下一状态 $s^{'}$ ，即这里假设至少需要 $O (∣ S ∣ ∣ A ∣ N)$ 个样本。

抱歉，我还是忍不住啰嗦了5555，那 $N$ 究竟是多少才能保证获得near-optimal的deterministic policy？所以这里的 $∣ S ∣ ∣ A ∣ N$ 就是我们所指的样本复杂度

一、Naive Model-based Approach

1.1 Naive的命题

Naive Approach意思是：根据“均匀的交互假设”，得到一个估计的转移矩阵（ $\#(s,a,s')$ 表示与环境交互中在 $(s, a)$ 为输入时，输出为 $s^{'}$ 的个数）： $\widehat P(s'\mid s,a)=\frac{\# (s',s,a)}{N}$

问题：Naive Approach以频率当概率的情况下，需要多少个样本，才能准确估计转移矩阵 $P(\cdot\mid s,a)$ ？
直觉答：在determinisitc policy下，转移矩阵为 $\mathbb R^{|S||A|\times |S|}$ ，所以有 $S|^2|A|$ 个参数需要估计，那么至少需要 $O(|S|^2|A|)$ 的样本复杂度

下面证明具体的样本复杂度

因为需要估计转移矩阵，所以我们将估计的对象称为model，即 $\widehat P(s'\mid s,a)$ 称为transition model

所以问题变成： $N$ 需要满足什么样的sample complexity，才能使在我们建模transition model形成的 $\widehat \mathcal M=(S,A,\widehat P,r,\gamma)$ 上使用经典算法VI或PI得到的最优策略 $\widehat{\pi^\star}$ ，与在真实MDP上得到的最优策略 $\pi^\star$ 比较接近？

整体命题如下：

在均匀交互假设前提下，如果 $\epsilon\in(0,\frac{1}{1-\gamma})$ ， $\exist c>0$ ，且 $|S||A|N\geq \frac{\gamma}{(1-\gamma)^4}\frac{|S|^2|A|\log (\frac{c|S||A|}{\delta})}{\epsilon^2}$ 则有 $\geq1-\delta$ 的概率有如下命题成立：

(Model Accuracy) ：衡量真实transition matrix 与 transition model的差异
$\max_{s,a}||P(\cdot|s,a)-\widehat P(\cdot|s,a)||_1\leq (1-\gamma)^2\epsilon$
(Uniform Value Accuracy)：衡量策略 $\pi$ 的真实Q值与建模MDP得到的Q值的差异，对于 $\forall \pi\in \Pi$ 有
$||Q^\pi-\widehat Q^\pi||_{\infty}\leq \epsilon$
(Near Optimal Planning)：前者衡量 $\mathcal M\&\widehat \mathcal M$ 得到最优Q值的差异，后者衡量 $\mathcal M\&\widehat \mathcal M$ 得到最优策略 $\widehat{\pi^\star}\&\pi^\star$ 在真实Q值的差异，其中 $\widehat{\pi^\star}$ 为在 $\widehat{\mathcal M}$ 上得到的最优策略， $\widehat{Q^\star}$ 为在 $\widehat{\mathcal M}$ 上得到的最优Q值函数
$||\widehat{Q^\star}-Q^\star||_{\infty}\leq \epsilon\quad, ||Q^{\widehat{\pi^\star}}-Q^\star||_{\infty}\leq 2\epsilon$

注意： $||\widehat{Q^\star}-Q^\star||_{\infty}\leq \epsilon$ 与 $||Q^\pi-\widehat Q^\pi||_{\infty}\leq \epsilon$ 是没关系的。 $\widehat{Q^\star}$ 对应的策略是 $\widehat{\pi^\star}$ ， $Q^\star$ 对应的策略是 $\pi^\star$ ，不是同一个 $\pi$
为什么near-optimal planning有两个？因为评估一个deterministic策略性能时，一可选最优Q值的差异(隐式策略)，二可选最优策略的差异（显式策略）

如果对证明不感兴趣，可直接跳过，理解命题即可

1.2 准备证明所需要的基础公式

基础公式的证明可见链接

基础公式1：McDiarmid’s inequality
基础公式2：l1-norm&l2-norm inequality，其中 $d$ 为向量x的维度 $\sqrt{d}\| x\|_2\geq\|x\|_1\geq\|x\|_2$
基础公式3：Simple Application of McDiarmid’s inequality，其中 $N$ 为样本数
基础公式4：基础公式123结合得如下公式4，主要用于Model Accuracy的证明（其中 $\widehat q$ 为估计的均值向量， $\vec{q}$ 为真实的均值向量， $d$ 为其维度， $N$ 为得到 $\widehat q$ 的样本数）： $\operatorname{Pr}\left(\|\widehat{q}-\vec{q}\|_{1} \geq \sqrt{d}\left(1 / \sqrt{N}+\epsilon\right)\right) \leq e^{-N \epsilon^{2}}$
基础公式5：定义转移矩阵操作符 $P^\pi$ 针对的对象是 $Q^\pi$ , $P$ 针对的对象是 $V^\pi$ ，于是有对于任意的策略 $\pi$ 有 $Q^\pi-\widehat{Q^\pi}=\gamma(I-\gamma\widehat{P}^\pi)^{-1}(P-\widehat{P})V^\pi$ 证明如下：利用 $Q^\pi=(I-\gamma P^\pi)^{-1}r$ ，所以 $r=(I-\gamma P^\pi)Q^\pi$
$\begin{aligned} Q^{\pi}-\widehat{Q}^{\pi} &=\left(I-\gamma P^{\pi}\right)^{-1} r-\left(I-\gamma \widehat{P}^{\pi}\right)^{-1} r \\ &=\left(I-\gamma \widehat{P}^{\pi}\right)^{-1}\left(\left(I-\gamma \widehat{P}^{\pi}\right)-\left(I-\gamma P^{\pi}\right)\right) Q^{\pi} \\ &=\gamma\left(I-\gamma \widehat{P}^{\pi}\right)^{-1}\left(P^{\pi}-\widehat{P}^{\pi}\right) Q^{\pi} \\ &=\gamma\left(I-\gamma \widehat{P}^{\pi}\right)^{-1}(P-\widehat{P}) V^{\pi} \end{aligned}$
基础公式6：在系列二VI&PI中关于 $P^\pi$ 的常用引理中有 $[(1-\gamma)(I-\gamma P^\pi)^{-1}]_{(s,a),(s',a')}=(1-\gamma)\sum_{h=0}^\infty \gamma^h {\mathbb P}^\pi(s_h=s',a_h=a'|s_0=s,a_0=a)$ 易得不等式：
$\|(I-\gamma P^\pi)^{-1}v\|_\infty \leq \frac{\|v\|_\infty}{1-\gamma}$

1.3 Model Accuracy的证明

套用基础公式4，对于一个固定的(s,a)有
$\Pr\left(\|P(\cdot\mid s,a)-\widehat P(\cdot\mid s,a)\|_{1}\geq \sqrt{|S|}(\frac{1}{\sqrt N}+t)\right)\leq e^{-Nt^2}$
令 $\delta=e^{-Nt^2}$ ，得 $t=\sqrt{\frac{\ln\frac{1}{\delta}}{N}}$ ，所以在 $1-\delta$ 的概率下对于一个 $(s, a)$ 有如下成立
$\|P(\cdot\mid s,a)-\widehat P(\cdot\mid s,a)\|_{1}\leq \sqrt{|S|}(\frac{1+\sqrt{\ln \frac{1}{\delta}}}{\sqrt N})$
假设最大的那个状态动作对(s,a)与一个常数c相关:
$\max_{s,a}\|P(\cdot\mid s,a)-\widehat P(\cdot\mid s,a)\|_{1}\leq c\sqrt{|S|}(\frac{\sqrt{\ln \frac{1}{\delta}}}{\sqrt N})$
将命题中的已知 $N\geq \frac{\gamma}{(1-\gamma)^4}\frac{|S|\log (\frac{c|S||A|}{\delta})}{\epsilon^2}$ 代入可得：
$\max_{s,a}||P(\cdot|s,a)-\widehat P(\cdot|s,a)||_1\leq (1-\gamma)^2\epsilon$

（此处的细节推导有些小问题，书中的命题与CS6789的命题本身就有出入，自己手动推导两边都难以导出相应的结论，清楚细节的懂哥请留言）

1.4 Uniform Value Accuracy的证明

由基础公式5，6得
$\begin{aligned} \|Q^\pi-\widehat {Q^\pi}\|_\infty &= \|\gamma (I-\gamma \widehat{P^\pi})^{-1}(P-\widehat P)V^\pi\|_\infty\\ &\leq \frac{\gamma}{1-\gamma}\|(P-\widehat P)V^\pi\|_\infty\\ &\leq \frac{\gamma}{1-\gamma}\left(\max_{s,a}||P(\cdot|s,a)-\widehat P(\cdot|s,a)||_1\right)\|V^\pi\|_\infty\\ &\leq \frac{\gamma}{(1-\gamma)^2}\left(\max_{s,a}||P(\cdot|s,a)-\widehat P(\cdot|s,a)||_1\right)\\ &\leq \gamma \epsilon \leq \epsilon \end{aligned}$

1.5 Near Optimal Planning的证明

$||\widehat{Q^\star}-Q^\star||_{\infty}\leq \epsilon\quad, ||Q^{\widehat{\pi^\star}}-Q^\star||_{\infty}\leq 2\epsilon$

前者的证明如下：
$\begin{aligned} \widehat{Q^\star}-Q^\star&=\max_{\pi^\prime} \widehat Q^{\pi^\prime}-\max_\pi Q^\pi \\ &\leq \max_\pi |\widehat Q^\pi-Q^\pi|=\|\widehat Q^\pi-Q^\pi\|_\infty \leq \epsilon\text{ (uniform value accuracy)} \end{aligned}$

后者的证明如下：
$\begin{aligned} Q^{\widehat{\pi^\star}}-Q^\star&=\mathbb E_{s'\sim p(\cdot\mid s,a)}\left[Q(s',\widehat{\pi^\star}(s'))-Q(s',\pi^\star(s'))\right]\\ &= \mathbb E_{s'\sim p(\cdot\mid s,a)}\left[Q(s',\widehat{\pi^\star}(s'))-\widehat Q(s',\widehat{\pi^\star}(s'))+\widehat Q(s',\widehat{\pi^\star}(s'))-Q(s',\pi^\star(s')\right]\\ &= \mathbb E_{s'\sim p(\cdot\mid s,a)}\left[Q^{\widehat{\pi^\star}}-\widehat{Q^{\widehat{\pi^\star}}}+\widehat{Q^\star}-Q^\star\right]\\ &\leq \epsilon+\epsilon \text{ (前者用uniform value accuracy，后者为上述证明)} \end{aligned}$

总结

naive model-based approach的model是指transition model $P(\cdot\mid s,a)$ 是unknown的，所以我们naively建模一个均值model即 $\widehat P(s'\mid s,a)=\frac{\# (s',s,a)}{N}$ 去planning
可通过deterministic的转移矩阵 $S|^2|A|$ 的参数量，直觉推断至少需要 $O(|S|^2|A|)$ 的样本复杂度
然后严谨证明了在满足样本复杂度下界为 $\text{Sample complexity}\geq \frac{\gamma}{(1-\gamma)^4}\frac{|S|^2|A|\log (\frac{c|S||A|}{\delta})}{\epsilon^2}$ 有model accuracy、value accuracy、policy sub-optimality的bound
整体的setting是unknown transition matrix + naive approach

本章是提出一个命题，然后证明相关属性，下一章主要是理清以下的来龙去脉，并对sample complexity的bound做更优的improvement

$\epsilon$ 的含义是什么？
命题是如何给出的？即该下界的具体值是怎么确定的？怎么可能直接给出再证明嘛？一定有个方法论 $\text{Sample complexity}\geq \frac{\gamma}{(1-\gamma)^4}\frac{|S|^2|A|\log (\frac{c|S||A|}{\delta})}{\epsilon^2}$
bear this in mind，下篇见

Nemo555

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
每天一个RL基础理论(4)——Sample Complexity(上）

在经典的MDP setting中去分析一个Sample Complexity Bound，回答需要多少样本才能学习到near-optimal的policy这个问题。Sample complexity 上集
复制链接

扫一扫

专栏目录