CS6789-4(上)
- 搬砖来源:https://wensun.github.io/CS6789_fall_2021.html
- 主题:经典方法VI&PI在转移矩阵未知情况下,达到near-optimal policy所需的样本复杂度
- setting:infinite horizon discounted MDP / unknown transition probability / deterministic reward / deterministic policy
- 解决的问题:给定 M = ( S , A , P , r , γ ) \mathcal M=(S,A,P,r,\gamma) M=(S,A,P,r,γ),其中转移矩阵 P P P未知,经典方法VI&PI需要多少的样本(transitions ( s , a , r , s ′ ) (s,a,r,s') (s,a,r,s′))才能学习到near optimal的策略(deterministic & stationary)?
- 使用的理论工具:Statistics Theory
- 原本setting可以看作是:infinite horizon discounted( H → ∞ H\rightarrow \infty H→∞) + finite state&action( S , A S,A S,A) + known reward ( r ( s , a ) r(s,a) r(s,a)) + probably fixed discount( γ \gamma γ) + known transition matrix ( P P P)
- 这节在原本的setting下引入了一个非常关键的点:转移矩阵(transition matrix)是未知的。
- 回答主要问题是:需要与环境交互多少次,获得对应的observed transitions ( s , a , r , s ′ ) (s,a,r,s') (s,a,r,s′)才能估计最优策略 π ⋆ \pi^\star π⋆
在讨论sample complexity之前有个exploration的问题,即如果根据现有估计的转移矩阵 P ^ \widehat P P 和策略 π \pi π进行交互的话,有一些状态就有可能访问不到。这样又要先解决exploration的问题,才能分析sample complexity,所以这里弄一个大前提!
均匀的交互假设:在每个状态动作对 ( s , a ) ∈ S × A (s,a)\in S\times A (s,a)∈S×A都能与环境交互 N N N次,即能在 ( s , a ) (s,a) (s,a)下对真实的环境 p ( ⋅ ∣ s , a ) p(\cdot\mid s,a) p(⋅∣s,a)交互 N N N次,得到 N N N个下一状态 s ′ s' s′,即这里假设至少需要 O ( ∣ S ∣ ∣ A ∣ N ) O(|S||A|N) O(∣S∣∣A∣N)个样本。
抱歉,我还是忍不住啰嗦了5555,那 N N N究竟是多少才能保证获得near-optimal的deterministic policy?所以这里的 ∣ S ∣ ∣ A ∣ N |S||A|N ∣S∣∣A∣N就是我们所指的样本复杂度
一、Naive Model-based Approach
1.1 Naive的命题
Naive Approach意思是:根据“均匀的交互假设”,得到一个估计的转移矩阵( # ( s , a , s ′ ) \#(s,a,s') #(s,a,s′)表示与环境交互中在 ( s , a ) (s,a) (s,a)为输入时,输出为 s ′ s' s′的个数): P ^ ( s ′ ∣ s , a ) = # ( s ′ , s , a ) N \widehat P(s'\mid s,a)=\frac{\# (s',s,a)}{N} P (s′∣s,a)=N#(s′,s,a)
问题:Naive Approach以频率当概率的情况下,需要多少个样本,才能准确估计转移矩阵
P
(
⋅
∣
s
,
a
)
P(\cdot\mid s,a)
P(⋅∣s,a)?
直觉答:在determinisitc policy下,转移矩阵为
R
∣
S
∣
∣
A
∣
×
∣
S
∣
\mathbb R^{|S||A|\times |S|}
R∣S∣∣A∣×∣S∣,所以有
∣
S
∣
2
∣
A
∣
|S|^2|A|
∣S∣2∣A∣个参数需要估计,那么至少需要
O
(
∣
S
∣
2
∣
A
∣
)
O(|S|^2|A|)
O(∣S∣2∣A∣)的样本复杂度
下面证明具体的样本复杂度
因为需要估计转移矩阵,所以我们将估计的对象称为model,即 P ^ ( s ′ ∣ s , a ) \widehat P(s'\mid s,a) P (s′∣s,a)称为transition model
所以问题变成: N N N需要满足什么样的sample complexity,才能使在我们建模transition model形成的 M ^ = ( S , A , P ^ , r , γ ) \widehat \mathcal M=(S,A,\widehat P,r,\gamma) M =(S,A,P ,r,γ)上使用经典算法VI或PI得到的最优策略 π ⋆ ^ \widehat{\pi^\star} π⋆ ,与在真实MDP上得到的最优策略 π ⋆ \pi^\star π⋆比较接近?
整体命题如下:
在均匀交互假设前提下,如果 ϵ ∈ ( 0 , 1 1 − γ ) \epsilon\in(0,\frac{1}{1-\gamma}) ϵ∈(0,1−γ1), ∃ c > 0 \exist c>0 ∃c>0,且 ∣ S ∣ ∣ A ∣ N ≥ γ ( 1 − γ ) 4 ∣ S ∣ 2 ∣ A ∣ log ( c ∣ S ∣ ∣ A ∣ δ ) ϵ 2 |S||A|N\geq \frac{\gamma}{(1-\gamma)^4}\frac{|S|^2|A|\log (\frac{c|S||A|}{\delta})}{\epsilon^2} ∣S∣∣A∣N≥(1−γ)4γϵ2∣S∣2∣A∣log(δc∣S∣∣A∣)则有 ≥ 1 − δ \geq1-\delta ≥1−δ的概率有如下命题成立:
- (Model Accuracy) :衡量真实transition matrix 与 transition model的差异
max s , a ∣ ∣ P ( ⋅ ∣ s , a ) − P ^ ( ⋅ ∣ s , a ) ∣ ∣ 1 ≤ ( 1 − γ ) 2 ϵ \max_{s,a}||P(\cdot|s,a)-\widehat P(\cdot|s,a)||_1\leq (1-\gamma)^2\epsilon s,amax∣∣P(⋅∣s,a)−P (⋅∣s,a)∣∣1≤(1−γ)2ϵ - (Uniform Value Accuracy):衡量策略
π
\pi
π的真实Q值与建模MDP得到的Q值的差异,对于
∀
π
∈
Π
\forall \pi\in \Pi
∀π∈Π有
∣ ∣ Q π − Q ^ π ∣ ∣ ∞ ≤ ϵ ||Q^\pi-\widehat Q^\pi||_{\infty}\leq \epsilon ∣∣Qπ−Q π∣∣∞≤ϵ - (Near Optimal Planning):前者衡量
M
&
M
^
\mathcal M\&\widehat \mathcal M
M&M
得到最优Q值的差异,后者衡量
M
&
M
^
\mathcal M\&\widehat \mathcal M
M&M
得到最优策略
π
⋆
^
&
π
⋆
\widehat{\pi^\star}\&\pi^\star
π⋆
&π⋆在真实Q值的差异,其中
π
⋆
^
\widehat{\pi^\star}
π⋆
为在
M
^
\widehat{\mathcal M}
M
上得到的最优策略,
Q
⋆
^
\widehat{Q^\star}
Q⋆
为在
M
^
\widehat{\mathcal M}
M
上得到的最优Q值函数
∣ ∣ Q ⋆ ^ − Q ⋆ ∣ ∣ ∞ ≤ ϵ , ∣ ∣ Q π ⋆ ^ − Q ⋆ ∣ ∣ ∞ ≤ 2 ϵ ||\widehat{Q^\star}-Q^\star||_{\infty}\leq \epsilon\quad, ||Q^{\widehat{\pi^\star}}-Q^\star||_{\infty}\leq 2\epsilon ∣∣Q⋆ −Q⋆∣∣∞≤ϵ,∣∣Qπ⋆ −Q⋆∣∣∞≤2ϵ
注意: ∣ ∣ Q ⋆ ^ − Q ⋆ ∣ ∣ ∞ ≤ ϵ ||\widehat{Q^\star}-Q^\star||_{\infty}\leq \epsilon ∣∣Q⋆ −Q⋆∣∣∞≤ϵ与 ∣ ∣ Q π − Q ^ π ∣ ∣ ∞ ≤ ϵ ||Q^\pi-\widehat Q^\pi||_{\infty}\leq \epsilon ∣∣Qπ−Q π∣∣∞≤ϵ是没关系的。 Q ⋆ ^ \widehat{Q^\star} Q⋆ 对应的策略是 π ⋆ ^ \widehat{\pi^\star} π⋆ , Q ⋆ Q^\star Q⋆对应的策略是 π ⋆ \pi^\star π⋆,不是同一个 π \pi π
为什么near-optimal planning有两个?因为评估一个deterministic策略性能时,一可选最优Q值的差异(隐式策略),二可选最优策略的差异(显式策略)
如果对证明不感兴趣,可直接跳过,理解命题即可
1.2 准备证明所需要的基础公式
基础公式的证明可见链接
- 基础公式1:McDiarmid’s inequality
- 基础公式2:l1-norm&l2-norm inequality,其中 d d d为向量x的维度 d ∥ x ∥ 2 ≥ ∥ x ∥ 1 ≥ ∥ x ∥ 2 \sqrt{d}\| x\|_2\geq\|x\|_1\geq\|x\|_2 d∥x∥2≥∥x∥1≥∥x∥2
- 基础公式3:Simple Application of McDiarmid’s inequality,其中
N
N
N为样本数
- 基础公式4:基础公式123结合得如下公式4,主要用于Model Accuracy的证明(其中 q ^ \widehat q q 为估计的均值向量, q ⃗ \vec{q} q为真实的均值向量, d d d为其维度, N N N为得到 q ^ \widehat q q 的样本数): Pr ( ∥ q ^ − q ⃗ ∥ 1 ≥ d ( 1 / N + ϵ ) ) ≤ e − N ϵ 2 \operatorname{Pr}\left(\|\widehat{q}-\vec{q}\|_{1} \geq \sqrt{d}\left(1 / \sqrt{N}+\epsilon\right)\right) \leq e^{-N \epsilon^{2}} Pr(∥q −q∥1≥d(1/N+ϵ))≤e−Nϵ2
- 基础公式5:定义转移矩阵操作符
P
π
P^\pi
Pπ针对的对象是
Q
π
Q^\pi
Qπ,
P
P
P针对的对象是
V
π
V^\pi
Vπ,于是有对于任意的策略
π
\pi
π有
Q
π
−
Q
π
^
=
γ
(
I
−
γ
P
^
π
)
−
1
(
P
−
P
^
)
V
π
Q^\pi-\widehat{Q^\pi}=\gamma(I-\gamma\widehat{P}^\pi)^{-1}(P-\widehat{P})V^\pi
Qπ−Qπ
=γ(I−γP
π)−1(P−P
)Vπ证明如下:利用
Q
π
=
(
I
−
γ
P
π
)
−
1
r
Q^\pi=(I-\gamma P^\pi)^{-1}r
Qπ=(I−γPπ)−1r,所以
r
=
(
I
−
γ
P
π
)
Q
π
r=(I-\gamma P^\pi)Q^\pi
r=(I−γPπ)Qπ
Q π − Q ^ π = ( I − γ P π ) − 1 r − ( I − γ P ^ π ) − 1 r = ( I − γ P ^ π ) − 1 ( ( I − γ P ^ π ) − ( I − γ P π ) ) Q π = γ ( I − γ P ^ π ) − 1 ( P π − P ^ π ) Q π = γ ( I − γ P ^ π ) − 1 ( P − P ^ ) V π \begin{aligned} Q^{\pi}-\widehat{Q}^{\pi} &=\left(I-\gamma P^{\pi}\right)^{-1} r-\left(I-\gamma \widehat{P}^{\pi}\right)^{-1} r \\ &=\left(I-\gamma \widehat{P}^{\pi}\right)^{-1}\left(\left(I-\gamma \widehat{P}^{\pi}\right)-\left(I-\gamma P^{\pi}\right)\right) Q^{\pi} \\ &=\gamma\left(I-\gamma \widehat{P}^{\pi}\right)^{-1}\left(P^{\pi}-\widehat{P}^{\pi}\right) Q^{\pi} \\ &=\gamma\left(I-\gamma \widehat{P}^{\pi}\right)^{-1}(P-\widehat{P}) V^{\pi} \end{aligned} Qπ−Q π=(I−γPπ)−1r−(I−γP π)−1r=(I−γP π)−1((I−γP π)−(I−γPπ))Qπ=γ(I−γP π)−1(Pπ−P π)Qπ=γ(I−γP π)−1(P−P )Vπ - 基础公式6:在系列二VI&PI中关于
P
π
P^\pi
Pπ的常用引理中有
[
(
1
−
γ
)
(
I
−
γ
P
π
)
−
1
]
(
s
,
a
)
,
(
s
′
,
a
′
)
=
(
1
−
γ
)
∑
h
=
0
∞
γ
h
P
π
(
s
h
=
s
′
,
a
h
=
a
′
∣
s
0
=
s
,
a
0
=
a
)
[(1-\gamma)(I-\gamma P^\pi)^{-1}]_{(s,a),(s',a')}=(1-\gamma)\sum_{h=0}^\infty \gamma^h {\mathbb P}^\pi(s_h=s',a_h=a'|s_0=s,a_0=a)
[(1−γ)(I−γPπ)−1](s,a),(s′,a′)=(1−γ)h=0∑∞γhPπ(sh=s′,ah=a′∣s0=s,a0=a)易得不等式:
∥ ( I − γ P π ) − 1 v ∥ ∞ ≤ ∥ v ∥ ∞ 1 − γ \|(I-\gamma P^\pi)^{-1}v\|_\infty \leq \frac{\|v\|_\infty}{1-\gamma} ∥(I−γPπ)−1v∥∞≤1−γ∥v∥∞
1.3 Model Accuracy的证明
- 套用基础公式4,对于一个固定的(s,a)有
Pr ( ∥ P ( ⋅ ∣ s , a ) − P ^ ( ⋅ ∣ s , a ) ∥ 1 ≥ ∣ S ∣ ( 1 N + t ) ) ≤ e − N t 2 \Pr\left(\|P(\cdot\mid s,a)-\widehat P(\cdot\mid s,a)\|_{1}\geq \sqrt{|S|}(\frac{1}{\sqrt N}+t)\right)\leq e^{-Nt^2} Pr(∥P(⋅∣s,a)−P (⋅∣s,a)∥1≥∣S∣(N1+t))≤e−Nt2 - 令
δ
=
e
−
N
t
2
\delta=e^{-Nt^2}
δ=e−Nt2,得
t
=
ln
1
δ
N
t=\sqrt{\frac{\ln\frac{1}{\delta}}{N}}
t=Nlnδ1,所以在
1
−
δ
1-\delta
1−δ的概率下对于一个
(
s
,
a
)
(s,a)
(s,a)有如下成立
∥ P ( ⋅ ∣ s , a ) − P ^ ( ⋅ ∣ s , a ) ∥ 1 ≤ ∣ S ∣ ( 1 + ln 1 δ N ) \|P(\cdot\mid s,a)-\widehat P(\cdot\mid s,a)\|_{1}\leq \sqrt{|S|}(\frac{1+\sqrt{\ln \frac{1}{\delta}}}{\sqrt N}) ∥P(⋅∣s,a)−P (⋅∣s,a)∥1≤∣S∣(N1+lnδ1) - 假设最大的那个状态动作对(s,a)与一个常数c相关:
max s , a ∥ P ( ⋅ ∣ s , a ) − P ^ ( ⋅ ∣ s , a ) ∥ 1 ≤ c ∣ S ∣ ( ln 1 δ N ) \max_{s,a}\|P(\cdot\mid s,a)-\widehat P(\cdot\mid s,a)\|_{1}\leq c\sqrt{|S|}(\frac{\sqrt{\ln \frac{1}{\delta}}}{\sqrt N}) s,amax∥P(⋅∣s,a)−P (⋅∣s,a)∥1≤c∣S∣(Nlnδ1) - 将命题中的已知
N
≥
γ
(
1
−
γ
)
4
∣
S
∣
log
(
c
∣
S
∣
∣
A
∣
δ
)
ϵ
2
N\geq \frac{\gamma}{(1-\gamma)^4}\frac{|S|\log (\frac{c|S||A|}{\delta})}{\epsilon^2}
N≥(1−γ)4γϵ2∣S∣log(δc∣S∣∣A∣)代入可得:
max s , a ∣ ∣ P ( ⋅ ∣ s , a ) − P ^ ( ⋅ ∣ s , a ) ∣ ∣ 1 ≤ ( 1 − γ ) 2 ϵ \max_{s,a}||P(\cdot|s,a)-\widehat P(\cdot|s,a)||_1\leq (1-\gamma)^2\epsilon s,amax∣∣P(⋅∣s,a)−P (⋅∣s,a)∣∣1≤(1−γ)2ϵ
(此处的细节推导有些小问题,书中的命题与CS6789的命题本身就有出入,自己手动推导两边都难以导出相应的结论,清楚细节的懂哥请留言)
1.4 Uniform Value Accuracy的证明
由基础公式5,6得
∥
Q
π
−
Q
π
^
∥
∞
=
∥
γ
(
I
−
γ
P
π
^
)
−
1
(
P
−
P
^
)
V
π
∥
∞
≤
γ
1
−
γ
∥
(
P
−
P
^
)
V
π
∥
∞
≤
γ
1
−
γ
(
max
s
,
a
∣
∣
P
(
⋅
∣
s
,
a
)
−
P
^
(
⋅
∣
s
,
a
)
∣
∣
1
)
∥
V
π
∥
∞
≤
γ
(
1
−
γ
)
2
(
max
s
,
a
∣
∣
P
(
⋅
∣
s
,
a
)
−
P
^
(
⋅
∣
s
,
a
)
∣
∣
1
)
≤
γ
ϵ
≤
ϵ
\begin{aligned} \|Q^\pi-\widehat {Q^\pi}\|_\infty &= \|\gamma (I-\gamma \widehat{P^\pi})^{-1}(P-\widehat P)V^\pi\|_\infty\\ &\leq \frac{\gamma}{1-\gamma}\|(P-\widehat P)V^\pi\|_\infty\\ &\leq \frac{\gamma}{1-\gamma}\left(\max_{s,a}||P(\cdot|s,a)-\widehat P(\cdot|s,a)||_1\right)\|V^\pi\|_\infty\\ &\leq \frac{\gamma}{(1-\gamma)^2}\left(\max_{s,a}||P(\cdot|s,a)-\widehat P(\cdot|s,a)||_1\right)\\ &\leq \gamma \epsilon \leq \epsilon \end{aligned}
∥Qπ−Qπ
∥∞=∥γ(I−γPπ
)−1(P−P
)Vπ∥∞≤1−γγ∥(P−P
)Vπ∥∞≤1−γγ(s,amax∣∣P(⋅∣s,a)−P
(⋅∣s,a)∣∣1)∥Vπ∥∞≤(1−γ)2γ(s,amax∣∣P(⋅∣s,a)−P
(⋅∣s,a)∣∣1)≤γϵ≤ϵ
1.5 Near Optimal Planning的证明
∣ ∣ Q ⋆ ^ − Q ⋆ ∣ ∣ ∞ ≤ ϵ , ∣ ∣ Q π ⋆ ^ − Q ⋆ ∣ ∣ ∞ ≤ 2 ϵ ||\widehat{Q^\star}-Q^\star||_{\infty}\leq \epsilon\quad, ||Q^{\widehat{\pi^\star}}-Q^\star||_{\infty}\leq 2\epsilon ∣∣Q⋆ −Q⋆∣∣∞≤ϵ,∣∣Qπ⋆ −Q⋆∣∣∞≤2ϵ
前者的证明如下:
Q
⋆
^
−
Q
⋆
=
max
π
′
Q
^
π
′
−
max
π
Q
π
≤
max
π
∣
Q
^
π
−
Q
π
∣
=
∥
Q
^
π
−
Q
π
∥
∞
≤
ϵ
(uniform value accuracy)
\begin{aligned} \widehat{Q^\star}-Q^\star&=\max_{\pi^\prime} \widehat Q^{\pi^\prime}-\max_\pi Q^\pi \\ &\leq \max_\pi |\widehat Q^\pi-Q^\pi|=\|\widehat Q^\pi-Q^\pi\|_\infty \leq \epsilon\text{ (uniform value accuracy)} \end{aligned}
Q⋆
−Q⋆=π′maxQ
π′−πmaxQπ≤πmax∣Q
π−Qπ∣=∥Q
π−Qπ∥∞≤ϵ (uniform value accuracy)
后者的证明如下:
Q
π
⋆
^
−
Q
⋆
=
E
s
′
∼
p
(
⋅
∣
s
,
a
)
[
Q
(
s
′
,
π
⋆
^
(
s
′
)
)
−
Q
(
s
′
,
π
⋆
(
s
′
)
)
]
=
E
s
′
∼
p
(
⋅
∣
s
,
a
)
[
Q
(
s
′
,
π
⋆
^
(
s
′
)
)
−
Q
^
(
s
′
,
π
⋆
^
(
s
′
)
)
+
Q
^
(
s
′
,
π
⋆
^
(
s
′
)
)
−
Q
(
s
′
,
π
⋆
(
s
′
)
]
=
E
s
′
∼
p
(
⋅
∣
s
,
a
)
[
Q
π
⋆
^
−
Q
π
⋆
^
^
+
Q
⋆
^
−
Q
⋆
]
≤
ϵ
+
ϵ
(前者用uniform value accuracy,后者为上述证明)
\begin{aligned} Q^{\widehat{\pi^\star}}-Q^\star&=\mathbb E_{s'\sim p(\cdot\mid s,a)}\left[Q(s',\widehat{\pi^\star}(s'))-Q(s',\pi^\star(s'))\right]\\ &= \mathbb E_{s'\sim p(\cdot\mid s,a)}\left[Q(s',\widehat{\pi^\star}(s'))-\widehat Q(s',\widehat{\pi^\star}(s'))+\widehat Q(s',\widehat{\pi^\star}(s'))-Q(s',\pi^\star(s')\right]\\ &= \mathbb E_{s'\sim p(\cdot\mid s,a)}\left[Q^{\widehat{\pi^\star}}-\widehat{Q^{\widehat{\pi^\star}}}+\widehat{Q^\star}-Q^\star\right]\\ &\leq \epsilon+\epsilon \text{ (前者用uniform value accuracy,后者为上述证明)} \end{aligned}
Qπ⋆
−Q⋆=Es′∼p(⋅∣s,a)[Q(s′,π⋆
(s′))−Q(s′,π⋆(s′))]=Es′∼p(⋅∣s,a)[Q(s′,π⋆
(s′))−Q
(s′,π⋆
(s′))+Q
(s′,π⋆
(s′))−Q(s′,π⋆(s′)]=Es′∼p(⋅∣s,a)[Qπ⋆
−Qπ⋆
+Q⋆
−Q⋆]≤ϵ+ϵ (前者用uniform value accuracy,后者为上述证明)
总结
- naive model-based approach的model是指transition model P ( ⋅ ∣ s , a ) P(\cdot\mid s,a) P(⋅∣s,a)是unknown的,所以我们naively建模一个均值model即 P ^ ( s ′ ∣ s , a ) = # ( s ′ , s , a ) N \widehat P(s'\mid s,a)=\frac{\# (s',s,a)}{N} P (s′∣s,a)=N#(s′,s,a)去planning
- 可通过deterministic的转移矩阵 ∣ S ∣ 2 ∣ A ∣ |S|^2|A| ∣S∣2∣A∣的参数量,直觉推断至少需要 O ( ∣ S ∣ 2 ∣ A ∣ ) O(|S|^2|A|) O(∣S∣2∣A∣)的样本复杂度
- 然后严谨证明了在满足样本复杂度下界为 Sample complexity ≥ γ ( 1 − γ ) 4 ∣ S ∣ 2 ∣ A ∣ log ( c ∣ S ∣ ∣ A ∣ δ ) ϵ 2 \text{Sample complexity}\geq \frac{\gamma}{(1-\gamma)^4}\frac{|S|^2|A|\log (\frac{c|S||A|}{\delta})}{\epsilon^2} Sample complexity≥(1−γ)4γϵ2∣S∣2∣A∣log(δc∣S∣∣A∣)有model accuracy、value accuracy、policy sub-optimality的bound
- 整体的setting是unknown transition matrix + naive approach
本章是提出一个命题,然后证明相关属性,下一章主要是理清以下的来龙去脉,并对sample complexity的bound做更优的improvement
- ϵ \epsilon ϵ的含义是什么?
- 命题是如何给出的?即该下界的具体值是怎么确定的?怎么可能直接给出再证明嘛?一定有个方法论 Sample complexity ≥ γ ( 1 − γ ) 4 ∣ S ∣ 2 ∣ A ∣ log ( c ∣ S ∣ ∣ A ∣ δ ) ϵ 2 \text{Sample complexity}\geq \frac{\gamma}{(1-\gamma)^4}\frac{|S|^2|A|\log (\frac{c|S||A|}{\delta})}{\epsilon^2} Sample complexity≥(1−γ)4γϵ2∣S∣2∣A∣log(δc∣S∣∣A∣)
- bear this in mind,下篇见