每天一个RL基础理论(5)——Sample Complexity(中)

  • 搬砖来源:https://wensun.github.io/CS6789_fall_2021.html
  • 细节来源:Model-Based Reinforcement Learning with a Generative Model is Minimax Optimal 2020 JMLR
  • 主题:经典方法VI&PI在转移矩阵未知情况下,使用经典算法VI&PI达到near-optimal policy所需的样本复杂度
  • setting:infinite horizon discounted MDP / unknown transition probability / deterministic reward / deterministic policy
  • 解决的问题:给定 M = ( S , A , P , r , γ ) \mathcal M=(S,A,P,r,\gamma) M=(S,A,P,r,γ),其中转移矩阵 P P P未知,经典方法VI&PI需要多少的样本(transitions ( s , a , r , s ′ ) (s,a,r,s') (s,a,r,s))才能学习到near optimal的策略(deterministic & stationary)?
  • 使用的理论工具:Statistics Theory

一、样本复杂度的分析目标是什么?

  1. 首先对未知的转移矩阵P,用均匀交互假设(generative model)进行建模
    P ^ ( s ′ ∣ s , a ) = # ( s ′ , s , a ) N \widehat P(s'\mid s,a)=\frac{\# (s',s,a)}{N} P (ss,a)=N#(s,s,a)
  2. M ^ = ( S , A , P ^ , r , γ ) \widehat M=(S,A,\widehat P,r,\gamma) M =(S,A,P ,r,γ)中使用VI算法学习到的元素均记为 Q ^ , V ^ \widehat Q ,\widehat V Q ,V ,其中 π ^ ⋆ , Q ^ ⋆ , V ^ ⋆ \widehat \pi^\star,\widehat Q^\star,\widehat V^\star π ,Q ,V 分别为基于 M ^ \widehat M M 的最优策略、Q值、V值,而我们最想要的是真实 M = ( S , A , P , r , γ ) M=(S,A, P,r,\gamma) M=(S,A,P,r,γ)中对应的 π ⋆ \pi^\star π
  3. 下面用 ϵ \epsilon ϵ来量化near-optimal的“near optimal”的程度,可简记为 ∥ V ⋆ − V π ∥ ∞ ≤ ϵ V \|V^\star-V^\pi\|_\infty\leq \epsilon_V VVπϵV
    V ⋆ ( s ) − V π ( s ) ≤ ϵ V ∀ s V^\star(s)-V^\pi(s)\leq \epsilon_V \quad \forall s V(s)Vπ(s)ϵVs
  4. 第n次迭代得到的策略 π n = arg max ⁡ a Q π n ( s , a ) \pi_n=\argmax_a Q^{\pi_n}(s,a) πn=aargmaxQπn(s,a),其与最优策略 π ⋆ \pi^\star π的性能满足:
    V π n ≥ V ⋆ ( s ) − 2 γ n 1 − γ ∣ ∣ Q 0 − Q ⋆ ∣ ∣ ∞ ∀ s ∈ S V^{\pi_n}\geq V^\star(s)-\frac{2\gamma^n}{1-\gamma}||Q_0-Q^\star||_{\infty} \quad \forall s\in S VπnV(s)1γ2γnQ0QsS因为V和Q之间的关系可以通过以上公式进行转换,所以最终目标可以选择分析Q函数,毕竟在VI或PI算法均以Q为直接迭代对象
    Q ⋆ ( s , a ) − Q ^ π ^ n ( s , a ) ≤ ϵ Q ∀ s , a Q^\star(s,a)-\widehat Q^{\hat \pi_n}(s,a)\leq \epsilon_{Q} \quad \forall s,a Q(s,a)Q π^n(s,a)ϵQs,a
  5. 因此只需要寻找 ϵ Q \epsilon_Q ϵQ N N N的关系,就可以回答样本复杂度的问题:对转移矩阵建模后,想用VI算法得到一个 ϵ \epsilon ϵ-optimal的策略,至少需要哪个量级的样本数 N N N

二、最终目标的分析与拆解

  1. 先对最终目标进行放缩,找它的上界
    ∥ Q ⋆ − Q ^ π ^ n ∥ ∞ ≤ ∥ Q ⋆ − Q ^ ⋆ ∥ ∞ + ∥ Q ^ ⋆ − Q ^ π ^ n ∥ ∞ \|Q^\star-\widehat Q^{\hat \pi_n}\|_\infty\leq \|Q^\star-\widehat{Q}^\star\|_\infty + \|\widehat Q^\star - \widehat Q^{\hat\pi_n}\|_\infty QQ π^nQQ +Q Q π^n
  2. ∥ Q ^ ⋆ − Q ^ π ^ n ∥ ∞ \|\widehat Q^\star - \widehat Q^{\hat\pi_n}\|_\infty Q Q π^n这项并不难,其对应的是MDP已知的planning问题,在VI的Computational Complexity中可知
    ∥ Q ^ ⋆ − Q ^ π ^ n ∥ ∞ ≤ γ n ∥ Q ^ 0 − Q ^ ⋆ ∥ ∞ ≤ γ n 1 1 − γ = ( 1 − ( 1 − γ ) ) n 1 1 − γ ≤ exp ⁡ ( − ( 1 − γ ) n ) 1 1 − γ ≤ ϵ o p t \begin{aligned} &\|\widehat Q^\star - \widehat Q^{\hat\pi_n}\|_\infty\leq\gamma^n\|\widehat Q_0-\widehat Q^\star\|_\infty\leq \gamma^n\frac{1}{1-\gamma}\\ &=(1-(1-\gamma))^n\frac{1}{1-\gamma}\\ &\leq \exp(-(1-\gamma)n)\frac{1}{1-\gamma}\leq \epsilon_{opt} \end{aligned} Q Q π^nγnQ 0Q γn1γ1=(1(1γ))n1γ1exp((1γ)n)1γ1ϵopt
  3. 因此在 n ≥ O ( ( 1 − γ ) − 1 ln ⁡ ϵ o p t − 1 ) n\geq O((1-\gamma)^{-1}\ln\epsilon_{opt}^{-1}) nO((1γ)1lnϵopt1)这个量级的迭代步数后,有 ∥ Q ^ ⋆ − Q ^ π ^ n ∥ ∞ ≤ ϵ o p t \|\widehat Q^\star - \widehat Q^{\hat\pi_n}\|_\infty\leq \epsilon_{opt} Q Q π^nϵopt,这个称作optimization error,也即 ϵ o p t \epsilon_{opt} ϵopt下标的来源
  4. 难点在 ∥ Q ⋆ − Q ^ ⋆ ∥ ∞ \|Q^\star-\widehat{Q}^\star\|_\infty QQ 这一项中,先将它写完整进行细看(optimal policy可以是deterministic的!)对一个 ( s , a ) (s,a) (s,a)而言,有
    Q ^ ⋆ ( s , a ) − Q ⋆ ( s , a ) = r ( s , a ) + γ E s ′ ∼ p ^ ( ⋅ ∣ s , a ) [ Q ^ ( s ′ , π ^ ⋆ ( s ′ ) ) ] − r ( s , a ) − γ E s ′ ∼ p ( ⋅ ∣ s , a ) [ Q ( s ′ , π ⋆ ( s ′ ) ) ] \widehat Q^\star(s,a)-Q^\star(s,a)=r(s,a)+\gamma\mathbb E_{s'\sim \widehat p(\cdot|s,a)}[\widehat Q(s',\widehat \pi^\star(s'))]-r(s,a)-\gamma \mathbb E_{s'\sim p(\cdot|s,a)}[Q(s',\pi^\star(s'))] Q (s,a)Q(s,a)=r(s,a)+γEsp (s,a)[Q (s,π (s))]r(s,a)γEsp(s,a)[Q(s,π(s))]首先,Q函数不同,其次,策略也不同,似乎一筹莫展,先回忆一下

三、相关公式的理解与梳理

2.1 Bellman Consistency Equation

V π ( s ) = E a ∼ π ( ⋅ ∣ s ) [ Q π ( s , a ) ] (V-Q) Q π ( s , a ) = r ( s , a ) + γ E s ′ ∼ p ( ⋅ ∣ s , a ) [ V π ( s ′ ) ] (Q-V) V π ( s ) = E a ∼ π ( ⋅ ∣ s ) [ r ( s , a ) + γ E s ′ ∼ p ( ⋅ ∣ s , a ) [ V π ( s ′ ) ] ] (V-V) Q π ( s , a ) = r ( s , a ) + γ E s ′ ∼ p ( ⋅ ∣ s , a ) [ E a ′ ∼ π ( ⋅ ∣ s ′ ) [ Q π ( s ′ , a ′ ) ] ] (Q-Q) \begin{aligned} V^\pi(s)&=\mathbb E_{a\sim \pi(\cdot\mid s)}\left[Q^\pi(s,a)\right] \quad \text{(V-Q)}\\ Q^\pi(s,a)&= r(s,a) + \gamma \mathbb E_{s'\sim p(\cdot\mid s,a)}\left[V^\pi(s')\right]\quad \text{(Q-V)}\\ V^\pi(s)&=\mathbb E_{a\sim \pi(\cdot\mid s)}\left[ r(s,a) + \gamma \mathbb E_{s'\sim p(\cdot\mid s,a)}\left[V^\pi(s')\right]\right]\quad \text{(V-V)}\\ Q^\pi(s,a)&=r(s,a) + \gamma \mathbb E_{s'\sim p(\cdot\mid s,a)}\left[\mathbb E_{a'\sim \pi(\cdot\mid s')}\left[Q^\pi(s',a')\right]\right]\quad\text{(Q-Q)}\\ \end{aligned} Vπ(s)Qπ(s,a)Vπ(s)Qπ(s,a)=Eaπ(s)[Qπ(s,a)](V-Q)=r(s,a)+γEsp(s,a)[Vπ(s)](Q-V)=Eaπ(s)[r(s,a)+γEsp(s,a)[Vπ(s)]](V-V)=r(s,a)+γEsp(s,a)[Eaπ(s)[Qπ(s,a)]](Q-Q)

  1. 引入操作符 P π P^\pi Pπ简写(Q-Q)式: Q π = r + γ P π Q π Q^\pi=r+\gamma P^\pi Q^\pi Qπ=r+γPπQπ,这可从矩阵形式进行理解,其中矩阵每一项的具体值为 P ( s , a , s ′ , a ′ ) π = p ( s ′ ∣ s , a ) π ( a ′ ∣ s ′ ) P^\pi_{(s,a,s',a')}=p(s'|s,a)\pi(a'|s') P(s,a,s,a)π=p(ss,a)π(as) Q π ( ∈ R ∣ S ∣ ∣ A ∣ × 1 ) = r ( ∈ R ∣ S ∣ ∣ A ∣ × 1 ) + γ P π ( ∈ R ∣ S ∣ ∣ A ∣ × ∣ S ∣ ∣ A ∣ ) Q π ( ∈ R ∣ S ∣ ∣ A ∣ × 1 ) Q^\pi(\in \mathbb R^{|S||A|\times 1})=r(\in \mathbb R^{|S||A|\times 1})+\gamma P^\pi(\in\mathbb R^{|S||A|\times |S||A|}) Q^\pi(\in \mathbb R^{|S||A|\times 1}) Qπ(RSA×1)=r(RSA×1)+γPπ(RSA×SA)Qπ(RSA×1)
  2. 同理,引入操作符 P P P简写(Q-V)式: Q π = r + γ P V π Q^\pi=r+\gamma PV^\pi Qπ=r+γPVπ
  3. 因此基于consistency的Q函数有closed-form的表述 Q π = ( I − γ P π ) − 1 r Q^\pi=(I-\gamma P^\pi)^{-1}r Qπ=(IγPπ)1r
  4. Q π Q^\pi Qπ对于其空间内的每一个点 ( s , a ) (s,a) (s,a)定义为 Q π ( s , a ) = E [ ∑ t = 0 ∞ γ t r ( s t , a t ) ∣ s 0 = s , a 0 = a ] Q^\pi(s,a)=\mathbb E\left[\sum_{t=0}^\infty\gamma^tr(s_t,a_t)\Big|s_0=s,a_0=a\right] Qπ(s,a)=E[t=0γtr(st,at)s0=s,a0=a]
  5. 因此便可直接推出关于 ( I − γ P π ) − 1 (I-\gamma P^\pi)^{-1} (IγPπ)1的引理,即该可逆矩阵其中每一项为( Pr ⁡ \Pr Pr代表从 s 0 = s , a 0 = a s_0=s,a_0=a s0=s,a0=a出发在转移矩阵和策略的作用下,在t时刻遇到 ( s ′ , a ′ ) (s',a') (s,a)的概率
    ( I − γ P π ) ( s , a ) , ( s ′ , a ′ ) − 1 = ∑ t = 0 ∞ γ t Pr ⁡ ( s t = s ′ , a t = a ′ ∣ s 0 = s , a 0 = a ) ≤ 1 1 − γ (I-\gamma P^\pi)^{-1}_{(s,a),(s',a')}=\sum_{t=0}^\infty \gamma^t\Pr\left(s_t=s',a_t=a'|s_0=s,a_0=a\right)\leq \frac{1}{1-\gamma} (IγPπ)(s,a),(s,a)1=t=0γtPr(st=s,at=as0=s,a0=a)1γ1
  6. 在前面知道这玩意是可逆的即 ∣ ∣ ( I − γ P π ) x ∣ ∣ ∞ = ∣ ∣ x − γ P π x ∣ ∣ ∞ ≥ ∣ ∣ x ∣ ∣ ∞ − ∣ ∣ γ P π x ∣ ∣ ∞ (两者差的最大值>= 两者最大值之差) ≥ ∣ ∣ x ∣ ∣ ∞ − γ ∣ ∣ x ∣ ∣ ∞ ( P π 转移矩阵的定义) = ( 1 − γ ) ∣ ∣ x ∣ ∣ ∞ > 0 \begin{aligned} ||(I-\gamma P^{\pi})x||_{\infty}&=||x-\gamma P^{\pi}x||_{\infty}\\ &\geq ||x||_{\infty}-||\gamma P^\pi x||_{\infty}\text{(两者差的最大值>= 两者最大值之差)}\\ &\geq ||x||_{\infty}-\gamma ||x||_\infty \text{($P^\pi$转移矩阵的定义)}\\ &=(1-\gamma)||x||_\infty >0 \end{aligned} (IγPπ)x=xγPπxxγPπx(两者差的最大值>= 两者最大值之差)xγxPπ转移矩阵的定义)=(1γ)x>0
  7. 所以易得不等式 ∥ ( I − γ P π ) − 1 v ∥ ∞ ≤ ∥ v ∥ ∞ 1 − γ \|(I-\gamma P^\pi)^{-1}v\|_\infty \leq \frac{\|v\|_\infty}{1-\gamma} (IγPπ)1v1γv

要知道这小节全都是根据定义推出的,即Bellman consistency在所有setting下均适用,没有deterministic policy的假设,得与Bellman optimality进行区分

2.2 Simulation Lemma

基于2.1 Bellman Consistency中介绍的操作符 P π P^\pi Pπ,对于任意的策略 π \pi π有如下等式
Q π − Q ^ π = ( I − γ P π ) − 1 r − ( I − γ P ^ π ) − 1 r = ( I − γ P ^ π ) − 1 ( ( I − γ P ^ π ) ( I − γ P π ) − 1 − I ) r = ( I − γ P ^ π ) − 1 ( ( I − γ P ^ π ) − ( I − γ P π ) ) ( I − γ P π ) − 1 r = ( I − γ P ^ π ) − 1 ( ( I − γ P ^ π ) − ( I − γ P π ) ) Q π = γ ( I − γ P ^ π ) − 1 ( P π − P ^ π ) Q π = γ ( I − γ P ^ π ) − 1 ( P − P ^ ) V π \begin{aligned} Q^{\pi}-\widehat{Q}^{\pi} &=\left(I-\gamma P^{\pi}\right)^{-1} r-\left(I-\gamma \widehat{P}^{\pi}\right)^{-1} r \\ &=\left(I-\gamma \widehat{P}^{\pi}\right)^{-1}\left((I-\gamma \widehat{P}^{\pi})(I-\gamma P^{\pi})^{-1} -I\right)r\\ &=\left(I-\gamma \widehat{P}^{\pi}\right)^{-1}\left((I-\gamma \widehat{P}^{\pi})-(I-\gamma P^{\pi}) \right)(I-\gamma P^{\pi})^{-1} r\\ &=\left(I-\gamma \widehat{P}^{\pi}\right)^{-1}\left(\left(I-\gamma \widehat{P}^{\pi}\right)-\left(I-\gamma P^{\pi}\right)\right) Q^{\pi} \\ &=\gamma\left(I-\gamma \widehat{P}^{\pi}\right)^{-1}\left(P^{\pi}-\widehat{P}^{\pi}\right) Q^{\pi} \\ &=\gamma\left(I-\gamma \widehat{P}^{\pi}\right)^{-1}(P-\widehat{P}) V^{\pi} \end{aligned} QπQ π=(IγPπ)1r(IγP π)1r=(IγP π)1((IγP π)(IγPπ)1I)r=(IγP π)1((IγP π)(IγPπ))(IγPπ)1r=(IγP π)1((IγP π)(IγPπ))Qπ=γ(IγP π)1(PπP π)Qπ=γ(IγP π)1(PP )Vπ

Q π − Q ^ π = ( I − γ P π ) − 1 r − ( I − γ P ^ π ) − 1 r = ( I − γ P π ) − 1 ( I − ( I − γ P π ) ( I − γ P ^ π ) − 1 ) r = ( I − γ P π ) − 1 ( ( I − γ P ^ π ) − ( I − γ P π ) ) ( I − γ P ^ π ) − 1 r = γ ( I − γ P π ) − 1 ( P π − P ^ π ) Q ^ π = γ ( I − γ P π ) − 1 ( P − P ^ ) V ^ π \begin{aligned} Q^{\pi}-\widehat{Q}^{\pi} &=\left(I-\gamma P^{\pi}\right)^{-1} r-(I-\gamma \widehat{P}^{\pi})^{-1} r \\ &=(I-\gamma P^\pi)^{-1}\left(I-(I-\gamma P^\pi)(I-\gamma \widehat{P}^{\pi})^{-1}\right)r\\ &=(I-\gamma P^\pi)^{-1}\left((I-\gamma \widehat{P}^{\pi})-(I-\gamma P^\pi)\right)(I-\gamma \widehat{P}^{\pi})^{-1}r\\ &=\gamma(I-\gamma P^\pi)^{-1}(P^\pi-\widehat P^\pi)\widehat Q^\pi\\ &=\gamma(I-\gamma P^\pi)^{-1}(P-\widehat P)\widehat V^\pi \end{aligned} QπQ π=(IγPπ)1r(IγP π)1r=(IγPπ)1(I(IγPπ)(IγP π)1)r=(IγPπ)1((IγP π)(IγPπ))(IγP π)1r=γ(IγPπ)1(PπP π)Q π=γ(IγPπ)1(PP )V π

特点是策略相同,Q不同;而Q的不同之处在于P还是 P ^ \widehat P P ,只与simulator有关,所以称为Simulation Lemma

2.3 Component-wise Bound

这是个著名的上下界,直接操作的对象是我们一筹莫展的 ∥ Q ⋆ − Q ^ ⋆ ∥ ∞ \|Q^\star-\widehat{Q}^\star\|_\infty QQ

  1. 上界
    Q ⋆ − Q ^ ⋆ = Q π ⋆ − Q ^ π ^ ⋆ ≤ Q π ⋆ − Q ^ π ⋆ (换成相同策略) = γ ( I − γ P ^ π ⋆ ) − 1 ( P − P ^ ) V π ⋆ (first simulation lemma) = γ ( I − γ P π ⋆ ) − 1 ( P − P ^ ) V ^ π ⋆ (second simulation leamma) \begin{aligned} Q^\star-\widehat{Q}^\star&=Q^{\pi^\star}-\widehat Q^{\hat \pi^\star}\leq Q^{\pi^\star}-\widehat Q^{\pi^\star}\text{(换成相同策略)}\\ &=\gamma\left(I-\gamma \widehat{P}^{\pi^\star}\right)^{-1}(P-\widehat{P}) V^{\pi^\star}\text{(first simulation lemma)}\\ &=\gamma\left(I-\gamma P^{\pi^\star}\right)^{-1}(P-\widehat P)\widehat V^{\pi^\star}\text{(second simulation leamma)} \end{aligned} QQ =QπQ π^QπQ π(换成相同策略)=γ(IγP π)1(PP )Vπ(first simulation lemma)=γ(IγPπ)1(PP )V π(second simulation leamma)
  2. 下界
    Q ⋆ − Q ^ ⋆ = Q π ⋆ − Q ^ π ^ ⋆ = ( I − γ P π ⋆ ) − 1 r − ( I − γ P ^ π ^ ⋆ ) − 1 r = ( I − γ P ^ π ^ ⋆ ) − 1 ( ( I − γ P ^ π ^ ⋆ ) ( I − γ P π ⋆ ) − 1 − I ) r = ( I − γ P ^ π ^ ⋆ ) − 1 ( ( I − γ P ^ π ^ ⋆ ) − ( I − γ P π ⋆ ) ) ( I − γ P π ⋆ ) − 1 r = γ ( I − γ P ^ π ^ ⋆ ) − 1 ( P π ⋆ − P ^ π ^ ⋆ ) Q ⋆ ≥ γ ( I − γ P ^ π ^ ⋆ ) − 1 ( P π ⋆ − P ^ π ⋆ ) Q ⋆  ( ⋆ ) = γ ( I − γ P ^ π ^ ⋆ ) − 1 ( P − P ^ ) V ⋆ \begin{aligned} Q^\star-\widehat{Q}^\star&=Q^{\pi^\star}-\widehat Q^{\hat \pi^\star}\\ &=(I-\gamma P^{\pi^\star})^{-1}r-(I-\gamma \widehat P^{\hat \pi^\star})^{-1}r\\ &=(I-\gamma \widehat P^{\hat \pi^\star})^{-1}\left((I-\gamma \widehat P^{\hat \pi^\star})(I-\gamma P^{\pi^\star})^{-1}-I\right)r\\ &=(I-\gamma \widehat P^{\hat \pi^\star})^{-1}\left((I-\gamma \widehat P^{\hat \pi^\star})-(I-\gamma P^{\pi^\star})\right)(I-\gamma P^{\pi^\star})^{-1}r\\ &=\gamma(I-\gamma \widehat P^{\hat \pi^\star})^{-1}\left(P^{\pi^\star}-\widehat P^{\hat \pi^\star}\right)Q^\star\\ &\geq \gamma(I-\gamma \widehat P^{\hat \pi^\star})^{-1}\left(P^{\pi^\star}-\widehat P^{\pi^\star}\right)Q^\star\text{ ($\star$)}\\ &=\gamma(I-\gamma \widehat P^{\hat \pi^\star})^{-1}\left(P-\widehat P\right)V^\star \end{aligned} QQ =QπQ π^=(IγPπ)1r(IγP π^)1r=(IγP π^)1((IγP π^)(IγPπ)1I)r=(IγP π^)1((IγP π^)(IγPπ))(IγPπ)1r=γ(IγP π^)1(PπP π^)Qγ(IγP π^)1(PπP π)Q ()=γ(IγP π^)1(PP )V

因此Componet-wise bound为 γ ( I − γ P ^ π ^ ⋆ ) − 1 ( P − P ^ ) V ⋆ ≤ Q ⋆ − Q ^ ⋆ ≤ γ ( I − γ P ^ π ⋆ ) − 1 ( P − P ^ ) V ⋆ \gamma(I-\gamma \widehat P^{\hat \pi^\star})^{-1}\left(P-\widehat P\right)V^\star\leq Q^\star-\widehat{Q}^\star\leq \gamma\left(I-\gamma \widehat{P}^{\pi^\star}\right)^{-1}(P-\widehat{P}) V^{\star} γ(IγP π^)1(PP )VQQ γ(IγP π)1(PP )V

Component-wise的bound无非是在simulation lemma的证明基础上,使用了两个小不等式:上界使用了 Q π ⋆ − Q ^ π ^ ⋆ ≤ Q π ⋆ − Q ^ π ⋆ Q^{\pi^\star}-\widehat Q^{\hat \pi^\star}\leq Q^{\pi^\star}-\widehat Q^{\pi^\star} QπQ π^QπQ π,下界在 ( ⋆ ) (\star) ()处使用了 P ^ π ^ ⋆ Q ⋆ ≤ P ^ π ⋆ Q ⋆ \widehat P^{\hat \pi^\star}Q^\star \leq \widehat P^{\pi^\star}Q^\star P π^QP πQ

四、在相关公式下的目标解析

  1. 使用component wide bound,有两种关于目标 Q ⋆ − Q ^ ⋆ Q^\star-\widehat{Q}^\star QQ 的上界即 Q ⋆ − Q ^ ⋆ ≤ γ ( I − γ P ^ π ⋆ ) − 1 ( P − P ^ ) V π ⋆ Q ⋆ − Q ^ ⋆ ≤ γ ( I − γ P π ⋆ ) − 1 ( P − P ^ ) V ^ π ⋆ \begin{aligned} &Q^\star-\widehat{Q}^\star\leq\gamma\left(I-\gamma \widehat{P}^{\pi^\star}\right)^{-1}(P-\widehat{P}) V^{\pi^\star}\\ &Q^\star-\widehat{Q}^\star\leq\gamma\left(I-\gamma P^{\pi^\star}\right)^{-1}(P-\widehat P)\widehat V^{\pi^\star} \end{aligned} QQ γ(IγP π)1(PP )VπQQ γ(IγPπ)1(PP )V π
  2. 接下来问题是,究竟哪个比较好bound住?
    • 是否有相关公式来表述 ( P − P ^ ) V π ⋆ (P-\widehat{P}) V^{\pi^\star} (PP )Vπ ( P − P ^ ) V ^ π ⋆ (P-\widehat P)\widehat V^{\pi^\star} (PP )V π
    • 是否有相关公式来表述 ( I − γ P ^ π ⋆ ) − 1 \left(I-\gamma \widehat{P}^{\pi^\star}\right)^{-1} (IγP π)1 ( I − γ P π ⋆ ) − 1 \left(I-\gamma P^{\pi^\star}\right)^{-1} (IγPπ)1
    • 怎么以一定的概率来bound住这些量?
  3. 且听下回分解
<think>嗯,用户想了解Excel中的VLOOKUP函数的用法和参数含义。首先,我需要回忆一下VLOOKUP的基本结构。VLOOKUP是垂直查找函数,用于在表格的首列查找指定的值,然后返回该行中指定列的数据。它的四个参数分别是查找值、表格范围、列索引号和匹配模式。 接下来,我得确认每个参数的具体作用。第一个参数是lookup_value,也就是用户要查找的值,比如产品ID或者姓名。第二个参数是table_array,即查找的范围,这里要注意的是,查找值必须位于这个范围的第一列,否则函数无法正确工作。第三个参数是col_index_num,也就是用户想要返回的数据在表格范围中的第几列,这个列数是从表格范围的第一列开始算起的,不是整个工作表的列。第四个参数是range_lookup,决定是精确匹配还是近似匹配,通常用FALSE或0来指定精确匹配,避免错误。 然后,用户可能需要一个具体的例子来理解如何使用。比如,假设有一个产品价格表,用户想根据产品ID查找对应的价格。这时候,VLOOKUP就可以在ID列查找,然后返回价格列的数据。同时,要提醒用户注意表格范围最好使用绝对引用,比如$A$2:$C$100,这样在拖动公式时范围不会变化。 可能遇到的问题也需要考虑。比如,如果查找值不在表格的第一列,或者列索引号超过了表格的列数,函数会返回错误。此外,数据格式不一致也可能导致问题,比如查找值是数字,而表格中是文本格式的数字,这时候需要统一格式。还有,当出现#N/A错误时,可能是查找值不存在,或者匹配模式设置不正确,需要检查参数是否正确。 用户可能还会问到如何避免常见的错误,比如部分数据匹配出错的情况。这时候需要检查是否有多余的空格,或者数据格式不一致,或者表格范围没有锁定导致拖动时偏移。此外,XLOOKUP作为VLOOKUP的升级版,可能在某些情况下更方便,比如可以向左查找或者返回多列数据,这也是可以提及的内容。 最后,整理步骤,从基础语法到参数说明,再到具体案例,逐步引导用户理解如何使用VLOOKUP函数。同时,提供常见错误和解决方法,帮助用户在实际应用中避免问题。如果有必要,还可以比较VLOOKUP和其他查找函数的区别,比如HLOOKUP或XLOOKUP,但根据用户的问题,主要集中在VLOOKUP本身即可。</think>### Excel VLOOKUP函数详解 #### 一、基础语法与参数说明 VLOOKUP函数的语法为: $$=VLOOKUP(lookup\_value, table\_array, col\_index\_num, [range\_lookup])$$ 包含4个参数: 1. **lookup_value**(必填):要查找的值(如单元格引用或具体值) 2. **table_array**(必填):包含数据的表格范围(必须包含查找列和返回列) 3. **col_index_num**(必填):返回值所在列的序号(从table_array第一列开始计数) 4. **range_lookup**(可选):匹配类型 - `TRUE`/`1`:近似匹配(默认值,需数据升序排列) - `FALSE`/`0`:精确匹配(常用选项) [^1][^2] #### 二、使用步骤演示(工资表查询案例) 假设需要根据员工编号查询工资: 1. 建立查询单元格(如`B12`) 2. 输入公式: ```excel =VLOOKUP(A12, $A$2:$D$100, 4, 0) ``` - `A12`:待查询的员工编号 - `$A$2:$D$100`:锁定数据区域(绝对引用) - `4`:返回第4列(工资列) - `0`:精确匹配 [^2][^3] #### 三、常见错误与解决方法 | 错误现象 | 原因 | 解决方案 | |---------|------|---------| | #N/A | 查找值不存在 | 检查数据源或改用`IFERROR`容错 | | #REF! | 列序号超出范围 | 确认col_index_num ≤ 表格列数 | | 部分匹配失败 | 数据格式不一致 | 统一数值/文本格式 | | 结果错位 | 表格未锁定 | 使用`$`符号固定区域引用 | [^3][^4] #### 四、进阶技巧 1. **多条件查询**: 使用辅助列合并多个条件字段 ```excel =VLOOKUP(A2&B2, $D$2:$F$100, 3, 0) ``` 2. **通配符匹配**: `"*"`匹配任意字符,`"?"`匹配单个字符 ```excel =VLOOKUP("张*", $A$2:$C$100, 3, 0) ``` 3. **跨表查询**: 引用其他工作表数据 ```excel =VLOOKUP(A2, Sheet2!$A$2:$D$100, 4, 0) ``` [^1][^4]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值