01.极限理论的意义
极限理论的意义主要在于两方面:
- 构造渐进检验与渐进置信域
- 从理论上研究统计过程的效率
例 1:考虑对于位置参数的经典t检验:给定一个 i . i . d . i.i.d. i.i.d.的样本 X 1 , X 2 , … , X_1,X_2,…, X1,X2,…,均值 μ = E ( X 1 ) \mu=E(X_1) μ=E(X1),我们希望检验 H 0 : μ = μ 0 H_0:\mu=\mu_0 H0:μ=μ0。
- 如果样本来自正态分布,则在 H 0 H_0 H0下 n ( X ˉ n − μ 0 ) S n \frac{\sqrt{n}(\bar X_n-\mu_0)}{S_n} Snn(Xˉn−μ0)∼ t n − 1 t_{n-1} tn−1。当 ∣ n ( X ˉ n − μ 0 ) S n ∣ > t n − 1 , α / 2 |\frac{\sqrt{n}(\bar X_n-\mu_0)}{S_n}|>t_{n-1,\alpha/2} ∣Snn(Xˉn−μ0)∣>tn−1,α/2时,拒绝原假设 H 0 H_0 H0 为对于 H 0 H_0 H0水平为 α \alpha α的检验。
- 当样本不服从正态分布时,上述结论不会总成立。但若样本的二阶矩有限,根据中心极限定理我们可知:当 n → ∞ n \rightarrow \infty n→∞时
sup x ∣ P { n ( X ˉ n − μ ) S n ≤ x } − Φ ( x ) ∗ ∣ → 0 \sup _{x}\left|\mathrm{P}\left\{\frac{\sqrt{n}\left(\bar{X}_{n}-\mu\right)}{S_{n}} \leq x\right\}-\Phi(x)^{*}\right| \rightarrow 0 xsup∣∣∣∣∣P{Snn(Xˉn−μ)≤x}−Φ(x)∗∣∣∣∣∣→0
这时可以构造渐进水平为 α \alpha α的检验:当 ∣ n ( X ˉ n − μ 0 ) S n ∣ > z α / 2 |\frac{\sqrt{n}(\bar X_n-\mu_0)}{S_n}|>z_{\alpha/2} ∣Snn(Xˉn−μ0)∣>zα/2时,拒绝原假设 H 0 H_0 H0 。
例 2:考虑参数
θ
\theta
θ的极大似然估计
θ
^
n
\hat{\theta}_n
θ^n,其中记总体密度函数为
f
θ
,
θ
∈
R
p
f_\theta,\theta\in \mathbb{R}^p
fθ,θ∈Rp。由后面的定理可知
n
(
θ
^
n
−
θ
)
\sqrt{n}(\hat{\theta}_n-\theta)
n(θ^n−θ)具有渐进分布
N
(
0
,
I
θ
)
N(0,\boldsymbol I_\theta)
N(0,Iθ),其中
I
θ
=
E
(
∂
log
f
θ
∂
θ
∂
log
f
θ
∂
θ
⊤
)
\boldsymbol{I}_{\boldsymbol{\theta}}=\mathrm{E}\left(\frac{\partial \log f_{\theta}}{\partial \boldsymbol{\theta}} \frac{\partial \log f_{\theta}}{\partial \boldsymbol{\theta}^{\top}}\right)
Iθ=E(∂θ∂logfθ∂θ⊤∂logfθ),为Fisher信息阵。由此可以构造参数
θ
\theta
θ置信水平渐进为
1
−
α
1-\alpha
1−α的置信域:
{
θ
:
(
θ
−
θ
^
n
)
⊤
I
θ
^
n
(
θ
−
θ
^
n
)
≤
χ
p
,
α
2
n
}
\left\{\boldsymbol{\theta}:\left(\boldsymbol{\theta}-\widehat{\boldsymbol{\theta}}_{n}\right)^{\top} \boldsymbol{I}_{\hat{\theta}_{n}}\left(\boldsymbol{\theta}-\widehat{\boldsymbol{\theta}}_{n}\right) \leq \frac{\chi_{p, \alpha}^{2}{ }}{n}\right\}
{θ:(θ−θ
n)⊤Iθ^n(θ−θ
n)≤nχp,α2}
02.随机变量的收敛性
一些定义与记号
-
概率空间 ( Ω , F , P ) (\Omega, \mathcal{F}, \mathrm{P}) (Ω,F,P)
- Ω \Omega Ω : 样本空间,为一非空集合
- F \mathcal{F} F: Ω \Omega Ω的子集构成的集合,且为 σ \sigma σ-域
- P \mathrm P P: 定义在 F \mathcal{F} F上的概率测度
-
随机变量 X ( w ) X(w) X(w) : 从 Ω \Omega Ω 到实数域 R \mathbb{R} R 的映射
-
随机向量: X = ( X 1 , X 2 , … , X p ) ⊤ \boldsymbol{X}=\left(X_{1}, X_{2}, \ldots, X_{p}\right)^{\top} X=(X1,X2,…,Xp)⊤ ,其中 X i X_i Xi为定义在 ( Ω , F ) (\Omega, \mathcal{F}) (Ω,F)的随机变量
-
定义在 R p \mathbb{R}^p Rp上的右连续分布函数: F X ( x ) = P ( { w : X ( w ) ≤ x } ) , ∀ x ∈ R p F_{\boldsymbol{X}}(\boldsymbol{x})=\mathrm{P}(\{w: \boldsymbol{X}(w) \leq \boldsymbol{x}\}),\forall x \in \mathbb{R}^{p} FX(x)=P({w:X(w)≤x}),∀x∈Rp
-
对于两随机向量 X \boldsymbol{X} X 和 Y \boldsymbol{Y} Y,如果它们的分布函数相同,即 F X = F Y F_{X}=F_{Y} FX=FY,则称随机向量 X \boldsymbol{X} X 和 Y \boldsymbol{Y} Y依分布相同
依概率收敛
定义2.1: 设 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots ,X_n X1,X2,⋯,Xn和 X X X为定义在 ( Ω , F , P ) (\Omega, \mathcal{F}, \mathrm{P}) (Ω,F,P)上的随机向量。如果
lim n → ∞ P ( ∣ X n − X ∣ > ϵ ) = 0 , ∀ ϵ > 0 \lim_{n\rightarrow \infty}\mathrm{P}\left(\left|X_{n}-X\right|>\epsilon\right) = 0, \forall \epsilon>0 n→∞limP(∣Xn−X∣>ϵ)=0,∀ϵ>0
则称 X n X_n Xn依概率收敛到 X X X,通常记作 X n → p X , n → ∞ X_{n} \stackrel{p}{\rightarrow} X, n \rightarrow \infty Xn→pX,n→∞
注:
- 对于p维随机向量 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots ,X_n X1,X2,⋯,Xn和 X X X,
如果 ∥ X n − X ∥ → p 0 \left\|\boldsymbol{X}_{n}-\boldsymbol{X}\right\| \stackrel{p}{\rightarrow} 0 ∥Xn−X∥→p0,则 X n → p X \boldsymbol{X}_{n} \stackrel{p}{\rightarrow} \boldsymbol{X} Xn→pX
- 随机向量的依概率收敛 ⟺ \iff ⟺依分量收敛
几乎处处收敛
定义2.2: 设 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots ,X_n X1,X2,⋯,Xn和 X X X为定义在 ( Ω , F , P ) (\Omega, \mathcal{F}, \mathrm{P}) (Ω,F,P)上的随机向量。如果
P ( lim n → ∞ ∣ X n − X ∣ = 0 ) = 1 \mathrm{P}\left(\lim _{n \rightarrow \infty}\left|X_{n}-X\right|=0\right)=1 P(n→∞lim∣Xn−X∣=0)=1
则称 X n X_n Xn几乎处处收敛到 X X X,通常记作 X n → w p 1 X , n → ∞ X_{n} \stackrel{wp1}{\rightarrow} X, n \rightarrow \infty Xn→wp1X,n→∞
注:
-
几乎处处收敛强于依概率收敛
-
随机向量的几乎处处收敛 ⟺ \iff ⟺依分量收敛
-
几乎处处收敛的等价刻画:
lim n → ∞ P ( ∣ X m − X ∣ ≤ ϵ , all m ≥ n ) = 1 , ∀ ϵ > 0 \lim _{n \rightarrow \infty} \mathrm{P}\left(\left|X_{m}-X\right| \leq \epsilon, \text { all } m \geq n\right)=1, \forall \epsilon>0 n→∞limP(∣Xm−X∣≤ϵ, all m≥n)=1,∀ϵ>0
r阶矩收敛
定义2.3:设 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots ,X_n X1,X2,⋯,Xn和 X X X为定义在 ( Ω , F , P ) (\Omega, \mathcal{F}, \mathrm{P}) (Ω,F,P)上的随机向量。如果对于 r > 0 r>0 r>0
lim n → ∞ E ∣ X n − X ∣ r = 0 \lim _{n \rightarrow \infty} \mathrm{E}\left|X_{n}-X\right|^{r}=0 n→∞limE∣Xn−X∣r=0
则称 X n X_n Xnr阶矩收敛到 X X X,通常记作 X n → r t h X , n → ∞ X_{n} \stackrel{rth}{\rightarrow} X, n \rightarrow \infty Xn→rthX,n→∞
注:
- r = 2 r=2 r=2时成为均方收敛
- X n → r t h X ⇒ X n → s t h X , 0 < s < r X_{n} \stackrel{rth}{\rightarrow} X \Rightarrow X_{n} \stackrel{sth}{\rightarrow} X, 0<s<r Xn→rthX⇒Xn→sthX,0<s<r
依分布收敛
定义2.4:设 X 1 , X 2 , ⋯ X_1,X_2,\cdots X1,X2,⋯ 和 X X X 为随机变量(不一定在同一概率空间),分布函数分别为 F X 1 ( ⋅ ) , F X 2 ( ⋅ ) , ⋯ F_{X_1}(\cdot),F_{X_2}(\cdot),\cdots FX1(⋅),FX2(⋅),⋯和 F X ( ⋅ ) F_X(\cdot) FX(⋅),如果
lim n → ∞ F X n ( x ) = F X ( x ) , every continuity point x of F X \lim _{n \rightarrow \infty} F_{X_{n}}(x)=F_{X}(x), \text { every continuity point } x \text { of } F_{X} n→∞limFXn(x)=FX(x), every continuity point x of FX
则称 X n X_n Xn依分布收敛到 X X X,通常记作 X n → d X , n → ∞ X_{n} \stackrel{d}{\rightarrow} X, n \rightarrow \infty Xn→dX,n→∞
注:
- 向量收敛与依分布收敛不等价
依分布收敛的几种等价刻画:
令 X 1 , X 2 , … \boldsymbol{X}_{1}, \boldsymbol{X}_{2}, \ldots X1,X2,… 和 X \boldsymbol{X} X 为p维随机向量
-
(Portmanteau) X n → d X \boldsymbol{X}_{n} \stackrel{d}{\rightarrow} \boldsymbol{X} Xn→dX ⟺ \iff ⟺ E { g ( X n ) } → E { g ( X ) } \mathrm{E}\left\{g\left(\boldsymbol{X}_{n}\right)\right\} \rightarrow \mathrm{E}\{g(\boldsymbol{X})\} E{g(Xn)}→E{g(X)} 对任意有界连续函数 g \mathrm{g} g.
-
(Lévy’s Continuity Theorem) X n → d X \boldsymbol{X}_{n} \stackrel{d}{\rightarrow} \boldsymbol{X} Xn→dX ⟺ \iff ⟺ φ x n ( t ) → φ X ( t ) \varphi \boldsymbol{x}_{n}(\boldsymbol{t}) \rightarrow \varphi_{\boldsymbol{X}}(\boldsymbol{t}) φxn(t)→φX(t) 对任意 t ∈ R p \boldsymbol{t} \in \mathbb{R}^{p} t∈Rp, 其中 φ X , φ x 1 , φ X , … \varphi_{\boldsymbol{X}}, \varphi \boldsymbol{x}_{1}, \varphi_{\boldsymbol{X}}, \ldots φX,φx1,φX,… 分别为 X , X 1 , X 2 , … \boldsymbol{X}, \boldsymbol{X}_{1}, \boldsymbol{X}_{2}, \ldots X,X1,X2,…, 的特征函数
-
(Cramér-Wold Device) X n → d X \boldsymbol{X}_{n} \stackrel{d}{\rightarrow} \boldsymbol{X} Xn→dX ⟺ \iff ⟺ c ⊤ X n → d c ⊤ X \boldsymbol{c}^{\top} \boldsymbol{X}_{n} \stackrel{d}{\rightarrow} \boldsymbol{c}^{\top} \boldsymbol{X} c⊤Xn→dc⊤X 对任意 c ∈ R p \boldsymbol{c} \in \mathbb{R}^{p} c∈Rp.
几种收敛间的关系
定理:
(i) X n → w p 1 X ⇒ X n → p X X_{n}\stackrel{w p 1}{\rightarrow} X \Rightarrow X_{n} \stackrel{p}{\rightarrow} X Xn→wp1X⇒Xn→pX
(ii) X n → r t h X ⇒ X n → p X X_{n}\stackrel{rth}{\rightarrow} X \Rightarrow X_{n} \stackrel{p}{\rightarrow} X Xn→rthX⇒Xn→pX
(iii) X n → p X ⇒ X n → d X X_{n} \stackrel{p}{\rightarrow} X \Rightarrow X_{n} \stackrel{d}{\rightarrow} X Xn→pX⇒Xn→dX
(iv) If
∑ n = 1 ∞ P ( ∣ X n − X ∣ > ϵ ) < ∞ , every ϵ > 0 , ( c o n v e r g e s c o m p l e t e l y ) \sum_{n=1}^{\infty} \mathrm{P}\left(\left|X_{n}-X\right|>\epsilon\right)<\infty, \text { every } \epsilon>0,{ }( converges\ completely) n=1∑∞P(∣Xn−X∣>ϵ)<∞, every ϵ>0,(converges completely)
则 X n → w p 1 X X_{n}\stackrel{w p 1}{\rightarrow} X Xn→wp1X
O O O 和 o o o
定义2.5:若 ∀ ϵ > 0 , ∃ M ϵ \forall \epsilon>0,\exist M_{\epsilon} ∀ϵ>0,∃Mϵ和 N ϵ N\epsilon Nϵ使得 P ( ∣ X n ∣ > M ϵ ) < ϵ P(|X_n|>M_\epsilon)<\epsilon P(∣Xn∣>Mϵ)<ϵ对所有的 n > M ϵ n>M_\epsilon n>Mϵ均成立,则称 { X n } \{X_n\} {Xn}依概率有界,记作 X n = O p ( 1 ) X_n=O_p(1) Xn=Op(1)
定理(Prohorov):
X n → d X ⇒ X n = O p ( 1 ) X_{n} \stackrel{d}{\rightarrow} X \Rightarrow X_{n}=O_{p}(1) Xn→dX⇒Xn=Op(1)
若 X n = O p ( 1 ) X_{n}=O_{p}(1) Xn=Op(1), 则存在子列 { X n i } \{X_{n_i}\} {Xni}和随机变量 X X X,使得 X n i → d X X_{n_{i}} \stackrel{d}{\rightarrow} X Xni→dX , i → ∞ i\rightarrow \infty i→∞
定义2.6:若 X n → p 0 X_{n} \stackrel{p}{\rightarrow} 0 Xn→p0, 则记作 X n = o p ( 1 ) X_{n}=o_{p}(1) Xn=op(1)。
连续映射定理
连续映射定理:令 g : R p ↦ R m g: \mathbb{R}^{p} \mapsto \mathbb{R}^{m} g:Rp↦Rm为在集合 C C C中几乎处处连续的映射。如果 X n X_n Xn依概率/几乎处处收敛/依分布收敛到 X X X,则 g ( X n ) g(X_n) g(Xn)依概率/几乎处处收敛/依分布收敛到 g ( X ) g(X) g(X)
Slutsky定理
引理:如果 X n → d X X_{n} \stackrel{d}{\rightarrow} X Xn→dX 且 Y n − X n → p 0 Y_{n}-X_{n} \stackrel{p}{\rightarrow} 0 Yn−Xn→p0, 则 Y n → d X Y_{n} \stackrel{d}{\rightarrow} X Yn→dX
Slutsky定理:令 X n → d X X_{n} \stackrel{d}{\rightarrow} X Xn→dX 且 Y n → p c Y_{n} \stackrel{p}{\rightarrow} c Yn→pc, 其中 c c c 为常数。则:
(i) X n + Y n → d X + c X_{n}+Y_{n} \stackrel{d}{\rightarrow} X+c Xn+Yn→dX+c
(ii) X n Y n → d c X X_{n} Y_{n} \stackrel{d}{\rightarrow} c X XnYn→dcX
(iii) Y n − 1 X n → d c − 1 X Y_{n}^{-1} X_{n} \stackrel{d}{\rightarrow} c^{-1} X Yn−1Xn→dc−1X ,其中 c ≠ 0 c \neq 0 c=0