每天一个RL基础理论(7)——总结篇

最新推荐文章于 2022-11-29 19:44:13 发布

Nemo555

最新推荐文章于 2022-11-29 19:44:13 发布

阅读量609

点赞数 1

分类专栏： Deep RL 文章标签：强化学习人工智能强化学习理论

本文链接：https://blog.csdn.net/weixin_40056577/article/details/121613442

版权

Deep RL 专栏收录该内容

27 篇文章 49 订阅

订阅专栏

CS6789-5 承上启下

一、 Planning in MDP
二、Sample Complexity
三、Sample Complexity的三篇文章
- 3.1 Naive Model-based Approach
- 3.2 Generative model-based Approach
四、后续的理论怎么走？
简单总结一下

一、 Planning in MDP

关于该系列，每天一个RL基础理论(1-3)，前三篇文章提及的核心概念如下：

Bellman Optimality
$\begin{aligned} V^\star(s)&=\max_a \left[r(s,a) + \gamma \mathbb E_{s'\sim P(\cdot\mid s,a)}[V^\star(s')]\right]\\ Q^\star(s,a)&=r(s,a)+\gamma \mathbb E_{s'\sim p(\cdot|s,a)}\left[\max_{a'}Q^\star (s',a')\right]\\ V^\star(s)&=\max_a Q^\star(s,a) \end{aligned}$
Bellman Consistency Equation
$\begin{aligned} V^\pi(s)&=\mathbb E_{a\sim \pi(\cdot\mid s)}\left[Q^\pi(s,a)\right] \quad \text{(V-Q)}\\ Q^\pi(s,a)&= r(s,a) + \gamma \mathbb E_{s'\sim p(\cdot\mid s,a)}\left[V^\pi(s')\right]\quad \text{(Q-V)}\\ V^\pi(s)&=\mathbb E_{a\sim \pi(\cdot\mid s)}\left[ r(s,a) + \gamma \mathbb E_{s'\sim p(\cdot\mid s,a)}\left[V^\pi(s')\right]\right]\quad \text{(V-V)}\\ Q^\pi(s,a)&=r(s,a) + \gamma \mathbb E_{s'\sim p(\cdot\mid s,a)}\left[\mathbb E_{a'\sim \pi(\cdot\mid s')}\left[Q^\pi(s',a')\right]\right]\quad\text{(Q-Q)}\\ \end{aligned}$
构造的deterministic的optimal policy
$\tilde \pi(s)=\argmax_{a\in A}\mathbb E_{s_0=s,a_0=a}\left[r(s,a)+\gamma V^\star(s_1)\right]$
Value Iteration，定义Bellman Optimality Operator为 $\mathcal BQ(s,a):= r(s,a) + \gamma \mathbb E_{s'\sim p(\cdot\mid s,a)}[\max_{a'}Q(s',a')]$
$\begin{aligned} &\text{VI迭代式：}Q_{n+1}(s,a)= r(s,a) + \gamma \mathbb E_{s'\sim p(\cdot\mid s,a)}[\max_{a'}Q_n(s',a')]\quad \forall s,a\in S\times A\\ &\text{$\mathcal B$}的性质：\|\mathcal BQ(s,a)-\mathcal BQ'(s,a)\|_{\infty}\leq \gamma \|Q(s,a)-Q'(s,a)\|_{\infty}\quad \forall s,a\in S\times A\\ &\text{$Q^\star$}的性质: \mathcal BQ^\star=Q^\star\\ &\text{VI收敛速度}:||Q_n-Q^\star||_{\infty}=||\mathcal BQ_{n-1}-\mathcal BQ^\star||\leq \gamma ||Q_{n-1}-Q^\star||\leq \cdots\leq \gamma^n ||Q_0-Q^\star||_{\infty}\\ &\text{VI策略：}\pi_n(s)=\argmax_a Q_n(s,a)\\ &\text{VI策略性能}:V^\star(s)-V^{\pi_n}(s)\leq \frac{2\gamma^n}{1-\gamma}||Q_0-Q^\star||_{\infty}\leq \frac{2}{1-\gamma}\times \frac{\exp(-(1-\gamma)n)}{1-\gamma}\leq \epsilon \end{aligned}$

$\mathcal B$ 操作的对象是Q函数内的元素 $s, a$ ， $\|\|_\infty$ 是函数的度量;
$\|Q(s,a)-Q'(s,a)\|_{\infty}$ 直观上这说的是， $Q 与 Q^{'}$ 两个函数的距离是 ${\infty}\text{-norm}$ ，是worst-case pointwise的；
经过 $\mathcal B$ 操作后，Q函数这个映射在 $(s, a)$ 空间上变得更为紧凑
VI收敛速度是 $O(\frac{\gamma^n}{1-\gamma})$ ，迭代 $n\geq \frac{\ln \frac{2}{\epsilon(1-\gamma)^2}}{1-\gamma}$ 步后得到的策略 $\pi_n$ 是 $\epsilon-optimal$ 的，即 $V^{\pi_n}(s)-V^\star(s)\leq \epsilon\quad \forall s$

Policy Iteration
$\begin{aligned} &\text{Policy Evaluation(Q-version)}：Q^{\pi_n}(s,a)=(I-\gamma P^{\pi_n})^{-1}r\quad\forall s,a \\ &\text{Policy Evaluation(V-version)}：V^\pi(s)=\mathbb E_{s'\sim p(\cdot|s,\pi(s))}\left[r(s,\pi(s))+\gamma V^\pi(s')\right]=(I-\gamma P_\pi)^{-1}r\quad \forall s\\ &\text{Policy Improvement}：\pi_{n+1}(s)=\argmax_a Q^{\pi_n}(s,a)=\argmax_a r(s,a)+\gamma \mathbb E_{s'\sim p(\cdot|s,a)}[V^{\pi_n}(s')]\quad\forall s\\ &\text{PI收敛速度：}\|V^{\pi_{n+1}}(s)-V^{\star}(s)\|_\infty \leq \gamma \|V^{\pi_n}(s)-V^\star(s)\|_\infty \end{aligned}$

在 $\pi$ 是deterministic的情况下，由Bellman Consistency有 $V^\pi(s)=Q^\pi(s,\pi(s))=r(s,\pi(s))+\gamma\mathbb E_{s'\sim p(\cdot|s,\pi(s))}[V^\pi(s')]=r(s,\pi(s))+\gamma \mathbb E_{s'\sim p(\cdot|s,\pi(s))}[Q^\pi(s',\pi(s')]$
PI使用了Bellman Consistency进行Policy Evaluation，VI使用了Bellman Optimality进行迭代，两者均使用了greedy policy即 $\pi(s)=\argmax_a Q^{\pi_n}(s,a)$
值得注意的是，这里没有与环境进行交互的概念，因为转移矩阵 $P$ 是已知的

Connection

策略性能由 $V^\star(s)-V^{\pi_n}(s)$ 这衡量，有个通用的performance lemma： $V^{\pi'}(s_0)-V^{\pi}(s_0)=\frac{1}{1-\gamma} \mathbb E_{s,a\sim d^{\pi'}_{s_0}}[Q^{\pi}(s,a)-V^{\pi}(s)]=\frac{1}{1-\gamma} \mathbb E_{(s,a)\sim d^{\pi'}_{s_0}(s,a)}[A^{\pi}(s,a)]$
由 $V^\star(s)-V^{\pi_n}(s)\leq \frac{2}{1-\gamma}||Q^{\pi_n}-Q^\star||_{\infty}=\frac{2}{1-\gamma}||Q_n-Q^\star||_{\infty}\leq \frac{2\gamma^n}{1-\gamma}\|Q_0-Q^\star\|$ 可知策略性能与Q值之间的关系，即只需要bound住 $\|Q^{\pi_n}-Q^\star\|\leq \epsilon$ ，则有：
$V^\star(s)-V^{\pi_n}(s)\leq \frac{2\epsilon}{1-\gamma}$ 于是只需要关心bound住Q值，便能bound住策略的性能

二、Sample Complexity

样本复杂度的探究，是非常取决于问题本身的，这什么意思呢？

如果问题的状态空间很大，如高维continuous，那么complexity中与状态相关量 $∣ S ∣$ 的量级越低越好
如果问题的序列长度很长，如infinite，那么complexity中与序列长度horizon相关量 $∣ H ∣$ 的量级越低越好
动作空间同理

其次，样本复杂度肯定也跟特定的算法相关。

每天一个RL基础理论(4-6)这三篇文章回答的问题是：

在Generative Model这种交互方式下，tabular MDP的setting下，对环境进行建模 $\widehat P$ ，使用VI或PI算法，至少需要多少样本才能得到一个 $\epsilon-optimal$ 的策略 $\pi$ ，即 $V^\pi(s)-V^\star(s)\leq \epsilon$

2.1 基本的setting

一般情况下，关于环境的dynamics即转移矩阵transition model $P$ 都是未知的。因此与环境交互的方式，决定了不同的样本复杂度。

Generative model：均匀交互假设，我们可以在整个状态动作的联合空间均匀的访问，向环境输入具体的 $(s, a)$ 得到 $s^{'}$ ，然后reset，这样巧妙地规避了exploration&exploitation的问题（知道了整个状态动作空间的reward所在）
$\mu-reset$ ：在特定的状态分布 $\mu(s)$ 上可以进行reset，根据当前策略 $\pi$ 选择动作，然后与环境交互，得到轨迹（只能知道受限的状态动作空间的reward所在）
Exploration：需要在整个状态空间探索reward所在

2.2 基本公式

2.2.1 Simulation Lemma

$\begin{aligned} Q^{\pi}-\widehat{Q}^{\pi} &=\left(I-\gamma P^{\pi}\right)^{-1} r-\left(I-\gamma \widehat{P}^{\pi}\right)^{-1} r \\ &=\left(I-\gamma \widehat{P}^{\pi}\right)^{-1}\left((I-\gamma \widehat{P}^{\pi})(I-\gamma P^{\pi})^{-1} -I\right)r\\ &=\left(I-\gamma \widehat{P}^{\pi}\right)^{-1}\left((I-\gamma \widehat{P}^{\pi})-(I-\gamma P^{\pi}) \right)(I-\gamma P^{\pi})^{-1} r\\ &=\left(I-\gamma \widehat{P}^{\pi}\right)^{-1}\left(\left(I-\gamma \widehat{P}^{\pi}\right)-\left(I-\gamma P^{\pi}\right)\right) Q^{\pi} \\ &=\gamma\left(I-\gamma \widehat{P}^{\pi}\right)^{-1}\left(P^{\pi}-\widehat{P}^{\pi}\right) Q^{\pi} \\ &=\gamma\left(I-\gamma \widehat{P}^{\pi}\right)^{-1}(P-\widehat{P}) V^{\pi} \end{aligned}$

$\begin{aligned} Q^{\pi}-\widehat{Q}^{\pi} &=\left(I-\gamma P^{\pi}\right)^{-1} r-(I-\gamma \widehat{P}^{\pi})^{-1} r \\ &=(I-\gamma P^\pi)^{-1}\left(I-(I-\gamma P^\pi)(I-\gamma \widehat{P}^{\pi})^{-1}\right)r\\ &=(I-\gamma P^\pi)^{-1}\left((I-\gamma \widehat{P}^{\pi})-(I-\gamma P^\pi)\right)(I-\gamma \widehat{P}^{\pi})^{-1}r\\ &=\gamma(I-\gamma P^\pi)^{-1}(P^\pi-\widehat P^\pi)\widehat Q^\pi\\ &=\gamma(I-\gamma P^\pi)^{-1}(P-\widehat P)\widehat V^\pi \end{aligned}$

特点是策略相同，Q不同；而Q的不同之处在于P还是 $\widehat P$ ，只与simulator有关，所以称为Simulation Lemma

2.2.2 Component-wise bound

$\gamma(I-\gamma \widehat P^{\hat \pi^\star})^{-1}\left(P-\widehat P\right)V^\star\leq Q^\star-\widehat{Q}^\star\leq \gamma\left(I-\gamma \widehat{P}^{\pi^\star}\right)^{-1}(P-\widehat{P}) V^{\star}$

2.2.3 Bellman Variance Equation

定义：
$\Sigma_M^\pi(s,a)=\mathbb E_{\pi,P}\left[\left(\sum_{t=0}^\infty\gamma^tr(s_t,a_t)-Q^\pi_M(s,a)\right)^2\Big|s_0=s,a_0=a\right]$ $Q^\pi_M(s,a)=\mathbb E_{\pi,P}\left[\sum_{h=0}^\infty\gamma^h r(s_h,a_h)\big|s_0=s,a_0=a\right]$ $\text{Var}_P(Q_M^\pi)(s,a)=\mathbb E_{s'\sim p(\cdot\mid s,a),a'\sim\pi(\cdot|s')}\left[\left(Q_M^\pi(s',a')-\mathbb E_{s''\sim p(\cdot\mid s,a),a''\sim\pi(\cdot|s'')}\left[Q_M^\pi(s'',a'')\right]\right)^2\right]$

于是有Bellman-style相关的equation：
$\Sigma_M^\pi=\gamma^2\Big(\text{Var}_P(Q_M^\pi)+P^\pi\Sigma_M^\pi\Big)$

2.3 目标分析

2.3.1 两个目标value estimation&sub-optimality

第一个分析的目标是Value Estimation $\|\widehat Q^\star-Q^\star\|_\infty$ ，分别是两个MDP的最优Q值函数，即 $\widehat \mathcal M=(S,A,r,\widehat P,\gamma)$ 与 $\mathcal M=(S,A,r, P,\gamma)$
对于一个点 $(s, a)$ 而言， $\|\widehat Q^\star-Q^\star\|_\infty$ 可写为 $\widehat Q^\star(s,a)-Q^\star(s,a)=r(s,a)+\gamma\mathbb E_{s'\sim \widehat p(\cdot|s,a)}[\widehat Q(s',\widehat \pi^\star(s'))]-r(s,a)-\gamma \mathbb E_{s'\sim p(\cdot|s,a)}[Q(s',\pi^\star(s'))]$
所以Value Estimation是说，建模的MDP的最优Q值，离真实MDP的最优Q值有多远？
第二个分析目标是Sub-Optimality $\|Q^{\widehat{\pi^\star}}-Q^\star\|_\infty$ ，从 $\widehat \mathcal M=(S,A,r,\widehat P,\gamma)$ 学习到的最优策略 $\widehat \pi^\star$ 在真实MDP对应的Q值，离最优Q值有多远？

2.3.2 初衷

出发点：Sample Complexity的初衷是从建模的MDP $\widehat \mathcal M=(S,A,r,\widehat P,\gamma)$ 中使用某个强化算法如VI迭代出一个策略 $\widehat {\pi_n}$ ，然后希望这个策略与真实的策略 $\pi^\star$ 相近
generative model是一个很强的assumption，希望在该assumption下有一个比较好的sample complexity bound，然后逐步弱化它，变成 $\mu-reset$ 以及exploration的assumption
所以现实的目标是 $\|\widehat Q^{\widehat \pi_n}-Q^\star\|_\infty$ ，作如下小放缩： $\|Q^\star-\widehat Q^{\hat \pi_n}\|_\infty\leq \|Q^\star-\widehat{Q}^\star\|_\infty + \|\widehat Q^\star - \widehat Q^{\hat\pi_n}\|_\infty$
放缩后的 $\|Q^\star-\widehat{Q}^\star\|_\infty$ 为value estimation， $\|\widehat Q^\star - \widehat Q^{\hat\pi_n}\|_\infty$ 为某个强化算法在 $\widehat \mathcal M=(S,A,r,\widehat P,\gamma)$ 中的optimization error
sub-optimality这个目标，通过恒等变形也同样会出现value estimation的目标，另一项可用simulation lemma进行放缩，因此我们把关注点放在了value estimation上 $\begin{aligned} Q^{\widehat{\pi^\star}}-Q^\star&=\mathbb E_{s'\sim p(\cdot\mid s,a)}\left[Q(s',\widehat{\pi^\star}(s'))-Q(s',\pi^\star(s'))\right]\\ &= \mathbb E_{s'\sim p(\cdot\mid s,a)}\left[Q(s',\widehat{\pi^\star}(s'))-\widehat Q(s',\widehat{\pi^\star}(s'))+\widehat Q(s',\widehat{\pi^\star}(s'))-Q(s',\pi^\star(s')\right]\\ &= \mathbb E_{s'\sim p(\cdot\mid s,a)}\left[Q^{\widehat{\pi^\star}}-\widehat{Q^{\widehat{\pi^\star}}}+\widehat{Q^\star}-Q^\star\right]\\ & \text{ (前者同一策略不同Q函数可用simulation lemma，后者为value estimation，期望可小于等于最大值点)} \end{aligned}$

三、Sample Complexity的三篇文章

它们的Setting、Algorithms、Assumption是完全相同的，不同的是sample complexity的bound

Setting是infinite horizon discounted MDP
Algorithms使用的Value Iteration & Policy Iteration
Assumption是generative model，即均匀交互假设，对转移矩阵进行建模 $\widehat P(s'\mid s,a)=\frac{\# (s',s,a)}{N}$

3.1 Naive Model-based Approach

出发点是希望通过bound住两个不同MDP下的所有策略（Uniform Value Accuracy），来达到bound住value estimation的目标 $\|Q^\star-\widehat{Q}^\star\|_\infty$

证明可见每天一个RL基础理论(4)——Sample Complexity(上）

整体命题如下：

在均匀交互假设前提下， $\epsilon\in(0,\frac{1}{1-\gamma})$ ， $\exist c>0$ ，如果 $|S||A|N\geq \frac{\gamma}{(1-\gamma)^4}\frac{|S|^2|A|\log (\frac{c|S||A|}{\delta})}{\epsilon^2}$ 则有 $\geq1-\delta$ 的概率有如下命题成立：

(Model Accuracy) ：衡量真实transition matrix 与 transition model的差异
$\max_{s,a}||P(\cdot|s,a)-\widehat P(\cdot|s,a)||_1\leq (1-\gamma)^2\epsilon$
(Uniform Value Accuracy)：衡量策略 $\pi$ 的真实Q值与建模MDP得到的Q值的差异，对于 $\forall \pi\in \Pi$ 有
$||Q^\pi-\widehat Q^\pi||_{\infty}\leq \epsilon$
(Near Optimal Planning)：前者衡量 $\mathcal M\&\widehat \mathcal M$ 得到最优Q值的差异，后者衡量 $\mathcal M\&\widehat \mathcal M$ 得到最优策略 $\widehat{\pi^\star}\&\pi^\star$ 在真实Q值的差异，其中 $\widehat{\pi^\star}$ 为在 $\widehat{\mathcal M}$ 上得到的最优策略， $\widehat{Q^\star}$ 为在 $\widehat{\mathcal M}$ 上得到的最优Q值函数
$||\widehat{Q^\star}-Q^\star||_{\infty}\leq \epsilon\quad, ||Q^{\widehat{\pi^\star}}-Q^\star||_{\infty}\leq 2\epsilon$

3.2 Generative model-based Approach

出发点是希望直接bound住value estimation的目标 $\|Q^\star-\widehat{Q}^\star\|_\infty$ ，而不管算法迭代过程中策略的误差，只关心结果，过程不重要。

在每天一个RL基础理论(5)——Sample Complexity(中），介绍了simulation lemma的证明以及component-wise bound
在每天一个RL基础理论(6)——Sample Complexity(下），介绍了第一种得到bound的方法为直接用Hoeffding inequality对目标上界的简单放缩，第二种方法为用Bellman variance equation对目标上界进行变化后，再用Bernstein inequality进行放缩来得到更紧致的bound

整体命题如下：

(Value estimation)在 $\epsilon \leq 1$ 下，如果
$总的样本复杂度=|S||A|N\geq \frac{c|S||A|}{(1-\gamma)^3}\frac{\ln c|S||A|/\delta}{\epsilon^2}$ 则在 $1-\delta$ 概率下有：
$\|Q^\star-\widehat Q^\star\|_\infty \leq \epsilon$
Sub-Optimality在 $\epsilon \leq \sqrt{\frac{1}{1-\gamma}}$ 下，如果 $总的样本复杂度=|S||A|N\geq \frac{c|S||A|}{(1-\gamma)^3}\frac{\ln c|S||A|/\delta}{\epsilon^2}$ 则在 $1-\delta$ 概率下有：
$\|Q^\star- Q^{\widehat \pi^\star}\|_\infty \leq \epsilon$

简单看naive model-based的sample complexity bound，与effective horizon $\frac{1}{1-\gamma}$ 呈四次方，与任务复杂度即状态动作空间呈 $O(|S|^2|A|\ln|S||A|)$ 的关系
generative model-based的sample complexity bound，与effective horizon $\frac{1}{1-\gamma}$ 呈三次方，与任务复杂度即状态动作空间呈 $O(|S||A|\ln|S||A|)$ 的关系

四、后续的理论怎么走？

这个sample complexity bound的前置条件：

Setting是infinite horizon discounted MDP
Algorithms使用的Value Iteration & Policy Iteration
Assumption是generative model，即均匀交互假设，对转移矩阵进行建模 $\widehat P(s'\mid s,a)=\frac{\# (s',s,a)}{N}$

理论问题：

如果环境不支持均匀交互假设即generative model，那么在 $\mu-reset$ 或exploration下，什么样的算法比较紧的sample complexity bound的保证？
如果状态空间很大，是高维连续的，现在这个bound中有 $O(|S||A|\ln|S||A|)$ ，能不能有别的算法降低一下对 $∣ S ∣$ 的依赖？
现在使用的算法非常naive，是value iteration或policy iteration，可以说是tabular MDP，如 $\text{VI迭代式：}Q_{n+1}(s,a)= r(s,a) + \gamma \mathbb E_{s'\sim p(\cdot\mid s,a)}[\max_{a'}Q_n(s',a')]\quad \forall s,a\in S\times A$ ，如果状态动作空间是无穷维的，这VI迭代式怎么表示Q函数？怎么更新Q函数？