每天一个RL基础理论(4)——Sample Complexity(上)

  • 搬砖来源:https://wensun.github.io/CS6789_fall_2021.html
  • 主题:经典方法VI&PI在转移矩阵未知情况下,达到near-optimal policy所需的样本复杂度
  • setting:infinite horizon discounted MDP / unknown transition probability / deterministic reward / deterministic policy
  • 解决的问题:给定 M = ( S , A , P , r , γ ) \mathcal M=(S,A,P,r,\gamma) M=(S,A,P,r,γ),其中转移矩阵 P P P未知,经典方法VI&PI需要多少的样本(transitions ( s , a , r , s ′ ) (s,a,r,s') (s,a,r,s))才能学习到near optimal的策略(deterministic & stationary)?
  • 使用的理论工具:Statistics Theory
  1. 原本setting可以看作是:infinite horizon discounted( H → ∞ H\rightarrow \infty H) + finite state&action( S , A S,A S,A) + known reward ( r ( s , a ) r(s,a) r(s,a)) + probably fixed discount( γ \gamma γ) + known transition matrix ( P P P)
  2. 这节在原本的setting下引入了一个非常关键的点:转移矩阵(transition matrix)是未知的
  3. 回答主要问题是:需要与环境交互多少次,获得对应的observed transitions ( s , a , r , s ′ ) (s,a,r,s') (s,a,r,s)才能估计最优策略 π ⋆ \pi^\star π

在讨论sample complexity之前有个exploration的问题,即如果根据现有估计的转移矩阵 P ^ \widehat P P 和策略 π \pi π进行交互的话,有一些状态就有可能访问不到。这样又要先解决exploration的问题,才能分析sample complexity,所以这里弄一个大前提!

均匀的交互假设:在每个状态动作对 ( s , a ) ∈ S × A (s,a)\in S\times A (s,a)S×A都能与环境交互 N N N次,即能在 ( s , a ) (s,a) (s,a)下对真实的环境 p ( ⋅ ∣ s , a ) p(\cdot\mid s,a) p(s,a)交互 N N N次,得到 N N N个下一状态 s ′ s' s,即这里假设至少需要 O ( ∣ S ∣ ∣ A ∣ N ) O(|S||A|N) O(SAN)个样本。

抱歉,我还是忍不住啰嗦了5555,那 N N N究竟是多少才能保证获得near-optimal的deterministic policy?所以这里的 ∣ S ∣ ∣ A ∣ N |S||A|N SAN就是我们所指的样本复杂度

一、Naive Model-based Approach

1.1 Naive的命题

Naive Approach意思是:根据“均匀的交互假设”,得到一个估计的转移矩阵( # ( s , a , s ′ ) \#(s,a,s') #(s,a,s)表示与环境交互中在 ( s , a ) (s,a) (s,a)为输入时,输出为 s ′ s' s的个数): P ^ ( s ′ ∣ s , a ) = # ( s ′ , s , a ) N \widehat P(s'\mid s,a)=\frac{\# (s',s,a)}{N} P (ss,a)=N#(s,s,a)

问题:Naive Approach以频率当概率的情况下,需要多少个样本,才能准确估计转移矩阵 P ( ⋅ ∣ s , a ) P(\cdot\mid s,a) P(s,a)
直觉答:在determinisitc policy下,转移矩阵为 R ∣ S ∣ ∣ A ∣ × ∣ S ∣ \mathbb R^{|S||A|\times |S|} RSA×S,所以有 ∣ S ∣ 2 ∣ A ∣ |S|^2|A| S2A个参数需要估计,那么至少需要 O ( ∣ S ∣ 2 ∣ A ∣ ) O(|S|^2|A|) O(S2A)的样本复杂度

下面证明具体的样本复杂度

因为需要估计转移矩阵,所以我们将估计的对象称为model,即 P ^ ( s ′ ∣ s , a ) \widehat P(s'\mid s,a) P (ss,a)称为transition model

所以问题变成: N N N需要满足什么样的sample complexity,才能使在我们建模transition model形成的 M ^ = ( S , A , P ^ , r , γ ) \widehat \mathcal M=(S,A,\widehat P,r,\gamma) M =(S,A,P ,r,γ)上使用经典算法VI或PI得到的最优策略 π ⋆ ^ \widehat{\pi^\star} π ,与在真实MDP上得到的最优策略 π ⋆ \pi^\star π比较接近?

整体命题如下

在均匀交互假设前提下,如果 ϵ ∈ ( 0 , 1 1 − γ ) \epsilon\in(0,\frac{1}{1-\gamma}) ϵ(0,1γ1) ∃ c > 0 \exist c>0 c>0,且 ∣ S ∣ ∣ A ∣ N ≥ γ ( 1 − γ ) 4 ∣ S ∣ 2 ∣ A ∣ log ⁡ ( c ∣ S ∣ ∣ A ∣ δ ) ϵ 2 |S||A|N\geq \frac{\gamma}{(1-\gamma)^4}\frac{|S|^2|A|\log (\frac{c|S||A|}{\delta})}{\epsilon^2} SAN(1γ)4γϵ2S2Alog(δcSA)则有 ≥ 1 − δ \geq1-\delta 1δ的概率有如下命题成立:

  1. (Model Accuracy) :衡量真实transition matrix 与 transition model的差异
    max ⁡ s , a ∣ ∣ P ( ⋅ ∣ s , a ) − P ^ ( ⋅ ∣ s , a ) ∣ ∣ 1 ≤ ( 1 − γ ) 2 ϵ \max_{s,a}||P(\cdot|s,a)-\widehat P(\cdot|s,a)||_1\leq (1-\gamma)^2\epsilon s,amaxP(s,a)P (s,a)1(1γ)2ϵ
  2. (Uniform Value Accuracy):衡量策略 π \pi π的真实Q值与建模MDP得到的Q值的差异,对于 ∀ π ∈ Π \forall \pi\in \Pi πΠ
    ∣ ∣ Q π − Q ^ π ∣ ∣ ∞ ≤ ϵ ||Q^\pi-\widehat Q^\pi||_{\infty}\leq \epsilon QπQ πϵ
  3. (Near Optimal Planning):前者衡量 M & M ^ \mathcal M\&\widehat \mathcal M M&M 得到最优Q值的差异,后者衡量 M & M ^ \mathcal M\&\widehat \mathcal M M&M 得到最优策略 π ⋆ ^ & π ⋆ \widehat{\pi^\star}\&\pi^\star π &π在真实Q值的差异,其中 π ⋆ ^ \widehat{\pi^\star} π 为在 M ^ \widehat{\mathcal M} M 上得到的最优策略, Q ⋆ ^ \widehat{Q^\star} Q 为在 M ^ \widehat{\mathcal M} M 上得到的最优Q值函数
    ∣ ∣ Q ⋆ ^ − Q ⋆ ∣ ∣ ∞ ≤ ϵ , ∣ ∣ Q π ⋆ ^ − Q ⋆ ∣ ∣ ∞ ≤ 2 ϵ ||\widehat{Q^\star}-Q^\star||_{\infty}\leq \epsilon\quad, ||Q^{\widehat{\pi^\star}}-Q^\star||_{\infty}\leq 2\epsilon Q Qϵ,Qπ Q2ϵ

注意: ∣ ∣ Q ⋆ ^ − Q ⋆ ∣ ∣ ∞ ≤ ϵ ||\widehat{Q^\star}-Q^\star||_{\infty}\leq \epsilon Q Qϵ ∣ ∣ Q π − Q ^ π ∣ ∣ ∞ ≤ ϵ ||Q^\pi-\widehat Q^\pi||_{\infty}\leq \epsilon QπQ πϵ是没关系的。 Q ⋆ ^ \widehat{Q^\star} Q 对应的策略是 π ⋆ ^ \widehat{\pi^\star} π Q ⋆ Q^\star Q对应的策略是 π ⋆ \pi^\star π,不是同一个 π \pi π
为什么near-optimal planning有两个?因为评估一个deterministic策略性能时,一可选最优Q值的差异(隐式策略),二可选最优策略的差异(显式策略)

如果对证明不感兴趣,可直接跳过,理解命题即可

1.2 准备证明所需要的基础公式

基础公式的证明可见链接

  • 基础公式1:McDiarmid’s inequality
    1
  • 基础公式2:l1-norm&l2-norm inequality,其中 d d d为向量x的维度 d ∥ x ∥ 2 ≥ ∥ x ∥ 1 ≥ ∥ x ∥ 2 \sqrt{d}\| x\|_2\geq\|x\|_1\geq\|x\|_2 d x2x1x2
  • 基础公式3:Simple Application of McDiarmid’s inequality,其中 N N N为样本数
    2
  • 基础公式4:基础公式123结合得如下公式4,主要用于Model Accuracy的证明(其中 q ^ \widehat q q 为估计的均值向量, q ⃗ \vec{q} q 为真实的均值向量, d d d为其维度, N N N为得到 q ^ \widehat q q 的样本数): Pr ⁡ ( ∥ q ^ − q ⃗ ∥ 1 ≥ d ( 1 / N + ϵ ) ) ≤ e − N ϵ 2 \operatorname{Pr}\left(\|\widehat{q}-\vec{q}\|_{1} \geq \sqrt{d}\left(1 / \sqrt{N}+\epsilon\right)\right) \leq e^{-N \epsilon^{2}} Pr(q q 1d (1/N +ϵ))eNϵ2
  • 基础公式5:定义转移矩阵操作符 P π P^\pi Pπ针对的对象是 Q π Q^\pi Qπ, P P P针对的对象是 V π V^\pi Vπ,于是有对于任意的策略 π \pi π Q π − Q π ^ = γ ( I − γ P ^ π ) − 1 ( P − P ^ ) V π Q^\pi-\widehat{Q^\pi}=\gamma(I-\gamma\widehat{P}^\pi)^{-1}(P-\widehat{P})V^\pi QπQπ =γ(IγP π)1(PP )Vπ证明如下:利用 Q π = ( I − γ P π ) − 1 r Q^\pi=(I-\gamma P^\pi)^{-1}r Qπ=(IγPπ)1r,所以 r = ( I − γ P π ) Q π r=(I-\gamma P^\pi)Q^\pi r=(IγPπ)Qπ
    Q π − Q ^ π = ( I − γ P π ) − 1 r − ( I − γ P ^ π ) − 1 r = ( I − γ P ^ π ) − 1 ( ( I − γ P ^ π ) − ( I − γ P π ) ) Q π = γ ( I − γ P ^ π ) − 1 ( P π − P ^ π ) Q π = γ ( I − γ P ^ π ) − 1 ( P − P ^ ) V π \begin{aligned} Q^{\pi}-\widehat{Q}^{\pi} &=\left(I-\gamma P^{\pi}\right)^{-1} r-\left(I-\gamma \widehat{P}^{\pi}\right)^{-1} r \\ &=\left(I-\gamma \widehat{P}^{\pi}\right)^{-1}\left(\left(I-\gamma \widehat{P}^{\pi}\right)-\left(I-\gamma P^{\pi}\right)\right) Q^{\pi} \\ &=\gamma\left(I-\gamma \widehat{P}^{\pi}\right)^{-1}\left(P^{\pi}-\widehat{P}^{\pi}\right) Q^{\pi} \\ &=\gamma\left(I-\gamma \widehat{P}^{\pi}\right)^{-1}(P-\widehat{P}) V^{\pi} \end{aligned} QπQ π=(IγPπ)1r(IγP π)1r=(IγP π)1((IγP π)(IγPπ))Qπ=γ(IγP π)1(PπP π)Qπ=γ(IγP π)1(PP )Vπ
  • 基础公式6:在系列二VI&PI中关于 P π P^\pi Pπ的常用引理中有 [ ( 1 − γ ) ( I − γ P π ) − 1 ] ( s , a ) , ( s ′ , a ′ ) = ( 1 − γ ) ∑ h = 0 ∞ γ h P π ( s h = s ′ , a h = a ′ ∣ s 0 = s , a 0 = a ) [(1-\gamma)(I-\gamma P^\pi)^{-1}]_{(s,a),(s',a')}=(1-\gamma)\sum_{h=0}^\infty \gamma^h {\mathbb P}^\pi(s_h=s',a_h=a'|s_0=s,a_0=a) [(1γ)(IγPπ)1](s,a),(s,a)=(1γ)h=0γhPπ(sh=s,ah=as0=s,a0=a)易得不等式:
    ∥ ( I − γ P π ) − 1 v ∥ ∞ ≤ ∥ v ∥ ∞ 1 − γ \|(I-\gamma P^\pi)^{-1}v\|_\infty \leq \frac{\|v\|_\infty}{1-\gamma} (IγPπ)1v1γv

1.3 Model Accuracy的证明

  1. 套用基础公式4,对于一个固定的(s,a)有
    Pr ⁡ ( ∥ P ( ⋅ ∣ s , a ) − P ^ ( ⋅ ∣ s , a ) ∥ 1 ≥ ∣ S ∣ ( 1 N + t ) ) ≤ e − N t 2 \Pr\left(\|P(\cdot\mid s,a)-\widehat P(\cdot\mid s,a)\|_{1}\geq \sqrt{|S|}(\frac{1}{\sqrt N}+t)\right)\leq e^{-Nt^2} Pr(P(s,a)P (s,a)1S (N 1+t))eNt2
  2. δ = e − N t 2 \delta=e^{-Nt^2} δ=eNt2,得 t = ln ⁡ 1 δ N t=\sqrt{\frac{\ln\frac{1}{\delta}}{N}} t=Nlnδ1 ,所以在 1 − δ 1-\delta 1δ的概率下对于一个 ( s , a ) (s,a) (s,a)有如下成立
    ∥ P ( ⋅ ∣ s , a ) − P ^ ( ⋅ ∣ s , a ) ∥ 1 ≤ ∣ S ∣ ( 1 + ln ⁡ 1 δ N ) \|P(\cdot\mid s,a)-\widehat P(\cdot\mid s,a)\|_{1}\leq \sqrt{|S|}(\frac{1+\sqrt{\ln \frac{1}{\delta}}}{\sqrt N}) P(s,a)P (s,a)1S (N 1+lnδ1 )
  3. 假设最大的那个状态动作对(s,a)与一个常数c相关:
    max ⁡ s , a ∥ P ( ⋅ ∣ s , a ) − P ^ ( ⋅ ∣ s , a ) ∥ 1 ≤ c ∣ S ∣ ( ln ⁡ 1 δ N ) \max_{s,a}\|P(\cdot\mid s,a)-\widehat P(\cdot\mid s,a)\|_{1}\leq c\sqrt{|S|}(\frac{\sqrt{\ln \frac{1}{\delta}}}{\sqrt N}) s,amaxP(s,a)P (s,a)1cS (N lnδ1 )
  4. 将命题中的已知 N ≥ γ ( 1 − γ ) 4 ∣ S ∣ log ⁡ ( c ∣ S ∣ ∣ A ∣ δ ) ϵ 2 N\geq \frac{\gamma}{(1-\gamma)^4}\frac{|S|\log (\frac{c|S||A|}{\delta})}{\epsilon^2} N(1γ)4γϵ2Slog(δcSA)代入可得:
    max ⁡ s , a ∣ ∣ P ( ⋅ ∣ s , a ) − P ^ ( ⋅ ∣ s , a ) ∣ ∣ 1 ≤ ( 1 − γ ) 2 ϵ \max_{s,a}||P(\cdot|s,a)-\widehat P(\cdot|s,a)||_1\leq (1-\gamma)^2\epsilon s,amaxP(s,a)P (s,a)1(1γ)2ϵ

(此处的细节推导有些小问题,书中的命题与CS6789的命题本身就有出入,自己手动推导两边都难以导出相应的结论,清楚细节的懂哥请留言)

1.4 Uniform Value Accuracy的证明

由基础公式5,6得
∥ Q π − Q π ^ ∥ ∞ = ∥ γ ( I − γ P π ^ ) − 1 ( P − P ^ ) V π ∥ ∞ ≤ γ 1 − γ ∥ ( P − P ^ ) V π ∥ ∞ ≤ γ 1 − γ ( max ⁡ s , a ∣ ∣ P ( ⋅ ∣ s , a ) − P ^ ( ⋅ ∣ s , a ) ∣ ∣ 1 ) ∥ V π ∥ ∞ ≤ γ ( 1 − γ ) 2 ( max ⁡ s , a ∣ ∣ P ( ⋅ ∣ s , a ) − P ^ ( ⋅ ∣ s , a ) ∣ ∣ 1 ) ≤ γ ϵ ≤ ϵ \begin{aligned} \|Q^\pi-\widehat {Q^\pi}\|_\infty &= \|\gamma (I-\gamma \widehat{P^\pi})^{-1}(P-\widehat P)V^\pi\|_\infty\\ &\leq \frac{\gamma}{1-\gamma}\|(P-\widehat P)V^\pi\|_\infty\\ &\leq \frac{\gamma}{1-\gamma}\left(\max_{s,a}||P(\cdot|s,a)-\widehat P(\cdot|s,a)||_1\right)\|V^\pi\|_\infty\\ &\leq \frac{\gamma}{(1-\gamma)^2}\left(\max_{s,a}||P(\cdot|s,a)-\widehat P(\cdot|s,a)||_1\right)\\ &\leq \gamma \epsilon \leq \epsilon \end{aligned} QπQπ =γ(IγPπ )1(PP )Vπ1γγ(PP )Vπ1γγ(s,amaxP(s,a)P (s,a)1)Vπ(1γ)2γ(s,amaxP(s,a)P (s,a)1)γϵϵ

1.5 Near Optimal Planning的证明

∣ ∣ Q ⋆ ^ − Q ⋆ ∣ ∣ ∞ ≤ ϵ , ∣ ∣ Q π ⋆ ^ − Q ⋆ ∣ ∣ ∞ ≤ 2 ϵ ||\widehat{Q^\star}-Q^\star||_{\infty}\leq \epsilon\quad, ||Q^{\widehat{\pi^\star}}-Q^\star||_{\infty}\leq 2\epsilon Q Qϵ,Qπ Q2ϵ

前者的证明如下:
Q ⋆ ^ − Q ⋆ = max ⁡ π ′ Q ^ π ′ − max ⁡ π Q π ≤ max ⁡ π ∣ Q ^ π − Q π ∣ = ∥ Q ^ π − Q π ∥ ∞ ≤ ϵ  (uniform value accuracy) \begin{aligned} \widehat{Q^\star}-Q^\star&=\max_{\pi^\prime} \widehat Q^{\pi^\prime}-\max_\pi Q^\pi \\ &\leq \max_\pi |\widehat Q^\pi-Q^\pi|=\|\widehat Q^\pi-Q^\pi\|_\infty \leq \epsilon\text{ (uniform value accuracy)} \end{aligned} Q Q=πmaxQ ππmaxQππmaxQ πQπ=Q πQπϵ (uniform value accuracy)

后者的证明如下:
Q π ⋆ ^ − Q ⋆ = E s ′ ∼ p ( ⋅ ∣ s , a ) [ Q ( s ′ , π ⋆ ^ ( s ′ ) ) − Q ( s ′ , π ⋆ ( s ′ ) ) ] = E s ′ ∼ p ( ⋅ ∣ s , a ) [ Q ( s ′ , π ⋆ ^ ( s ′ ) ) − Q ^ ( s ′ , π ⋆ ^ ( s ′ ) ) + Q ^ ( s ′ , π ⋆ ^ ( s ′ ) ) − Q ( s ′ , π ⋆ ( s ′ ) ] = E s ′ ∼ p ( ⋅ ∣ s , a ) [ Q π ⋆ ^ − Q π ⋆ ^ ^ + Q ⋆ ^ − Q ⋆ ] ≤ ϵ + ϵ  (前者用uniform value accuracy,后者为上述证明) \begin{aligned} Q^{\widehat{\pi^\star}}-Q^\star&=\mathbb E_{s'\sim p(\cdot\mid s,a)}\left[Q(s',\widehat{\pi^\star}(s'))-Q(s',\pi^\star(s'))\right]\\ &= \mathbb E_{s'\sim p(\cdot\mid s,a)}\left[Q(s',\widehat{\pi^\star}(s'))-\widehat Q(s',\widehat{\pi^\star}(s'))+\widehat Q(s',\widehat{\pi^\star}(s'))-Q(s',\pi^\star(s')\right]\\ &= \mathbb E_{s'\sim p(\cdot\mid s,a)}\left[Q^{\widehat{\pi^\star}}-\widehat{Q^{\widehat{\pi^\star}}}+\widehat{Q^\star}-Q^\star\right]\\ &\leq \epsilon+\epsilon \text{ (前者用uniform value accuracy,后者为上述证明)} \end{aligned} Qπ Q=Esp(s,a)[Q(s,π (s))Q(s,π(s))]=Esp(s,a)[Q(s,π (s))Q (s,π (s))+Q (s,π (s))Q(s,π(s)]=Esp(s,a)[Qπ Qπ +Q Q]ϵ+ϵ (前者用uniform value accuracy,后者为上述证明)

总结

  • naive model-based approach的model是指transition model P ( ⋅ ∣ s , a ) P(\cdot\mid s,a) P(s,a)是unknown的,所以我们naively建模一个均值model即 P ^ ( s ′ ∣ s , a ) = # ( s ′ , s , a ) N \widehat P(s'\mid s,a)=\frac{\# (s',s,a)}{N} P (ss,a)=N#(s,s,a)去planning
  • 可通过deterministic的转移矩阵 ∣ S ∣ 2 ∣ A ∣ |S|^2|A| S2A的参数量,直觉推断至少需要 O ( ∣ S ∣ 2 ∣ A ∣ ) O(|S|^2|A|) O(S2A)的样本复杂度
  • 然后严谨证明了在满足样本复杂度下界为 Sample complexity ≥ γ ( 1 − γ ) 4 ∣ S ∣ 2 ∣ A ∣ log ⁡ ( c ∣ S ∣ ∣ A ∣ δ ) ϵ 2 \text{Sample complexity}\geq \frac{\gamma}{(1-\gamma)^4}\frac{|S|^2|A|\log (\frac{c|S||A|}{\delta})}{\epsilon^2} Sample complexity(1γ)4γϵ2S2Alog(δcSA)有model accuracy、value accuracy、policy sub-optimality的bound
  • 整体的setting是unknown transition matrix + naive approach

本章是提出一个命题,然后证明相关属性,下一章主要是理清以下的来龙去脉,并对sample complexity的bound做更优的improvement

  1. ϵ \epsilon ϵ的含义是什么?
  2. 命题是如何给出的?即该下界的具体值是怎么确定的?怎么可能直接给出再证明嘛?一定有个方法论 Sample complexity ≥ γ ( 1 − γ ) 4 ∣ S ∣ 2 ∣ A ∣ log ⁡ ( c ∣ S ∣ ∣ A ∣ δ ) ϵ 2 \text{Sample complexity}\geq \frac{\gamma}{(1-\gamma)^4}\frac{|S|^2|A|\log (\frac{c|S||A|}{\delta})}{\epsilon^2} Sample complexity(1γ)4γϵ2S2Alog(δcSA)
  3. bear this in mind,下篇见
  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值