第四章 极限定理(1)
1.依分布收敛
数列极限、函数极限、级数极限都已经用严格的方式证明了,但随机变量是无穷多的样本点映射到实数的,如果有一列随机变量列,要描述它的收敛性,应该采用怎样的定义,是值得讨论的问题。依分布收敛是随机变量收敛的一种定义,它的定义对象主要是刻画随机变量的分布函数,因而叫依分布收敛。
一列随机变量 { ξ n } \{\xi_n\} {ξn}依分布收敛于 ξ \xi ξ,需要满足 { ξ n } \{\xi_n\} {ξn}的分布函数 { F n ( x ) } \{F_n(x)\} {Fn(x)}弱收敛与 ξ \xi ξ的分布函数 F ( x ) F(x) F(x),分布函数弱收敛指的是对于收敛对象 F ( x ) F(x) F(x)的每一个连续点 x ∈ R x\in \R x∈R,随着 n → ∞ n\to\infty n→∞都有 F n ( x ) → F ( x ) F_n(x)\to F(x) Fn(x)→F(x),即 F F F连续点是点点收敛的。将依分布收敛记作 ξ n → d ξ \xi_n \stackrel d\to\xi ξn→dξ,分布函数弱收敛记作 F n → w F F_n\stackrel w\to F Fn→wF。
- 分布函数弱收敛,是一个不高的收敛要求,因为它对于 F ( x ) F(x) F(x)的不连续点没有要求,这就给了离散型随机变量很大的宽容性。
- 在说明弱收敛时,一定要指出 F ( x ) F(x) F(x)与 { F n ( x ) } \{F_n(x)\} {Fn(x)},因为分布函数列的逐点收敛极限并不一定还是分布函数。
- Helly第一定理指出,分布函数列 { F n ( x ) } \{F_n(x)\} {Fn(x)}必定有收敛子函数列 F n k ( x ) F_{n_k}(x) Fnk(x),能够找到一个 F ( x ) F(x) F(x)使得在 F ( x ) F(x) F(x)的连续点处, F n k ( x ) → F ( x ) F_{n_k(x)}\to F(x) Fnk(x)→F(x)。这里 F ( x ) F(x) F(x)不一定是分布函数,但一定满足 0 ≤ F ( x ) ≤ 1 , x ∈ R 0\le F(x)\le 1,x\in \R 0≤F(x)≤1,x∈R。
- Helly第二定理指出,如果 ξ n → d ξ \xi_n\stackrel d\to \xi ξn→dξ,则对于 R \R R上的有界连续函数,有 E ( g ( ξ n ) ) → E ( g ( ξ ) ) E(g(\xi_n))\to E(g(\xi)) E(g(ξn))→E(g(ξ))。也就是说,依分布收敛能保证对于有界连续函数,其随机变量函数期望收敛。值得注意的是,由于 y = x y=x y=x在 R \R R上无界,不一定能保证 E ( ξ n ) → E ( ξ ) E(\xi_n)\to E(\xi) E(ξn)→E(ξ)。
- Levy连续性定理指出,如果 F n → w F F_n\stackrel w\to F Fn→wF,则相应的特征函数列在关于 t t t的任何有界区间内一致收敛于 F F F特征函数 f ( t ) f(t) f(t)。
- 逆极限定理指出,如果 f n ( t ) → f ( t ) f_n(t)\to f(t) fn(t)→f(t)对 t ∈ R t\in \R t∈R成立,且 f ( t ) f(t) f(t)在 t = 0 t=0 t=0处连续,则 f ( t ) f(t) f(t)一定是某个分布函数 F F F的特征函数,且 F n → w F F_n\stackrel w\to F Fn→wF。
- 对于 ξ n \xi_n ξn与 ξ \xi ξ,如果它们存在概率密度函数 p n ( x ) , p ( x ) p_n(x),p(x) pn(x),p(x)或分布列 p n ( x i ) , p ( x i ) p_n(x_i),p(x_i) pn(xi),p(xi),且对于任何 x x x或 x i x_i xi,有 p n ( x ) → p ( x ) p_n(x)\to p(x) pn(x)→p(x)或 p n ( x i ) → p ( x i ) p_n(x_i)\to p(x_i) pn(xi)→p(xi),则 ξ n → d ξ \xi_n \stackrel d\to \xi ξn→dξ。
- 以上结论均不需要证明。
实际上,要证明 ξ n → ξ \xi_n\to \xi ξn→ξ,主要用到的条件是概率密度或分布列的收敛或者特征函数的收敛。如果它们是收敛的,就得到随机变量的依分布收敛,从而得到随机变量有界连续函数的收敛。
依分布收敛还有以下重要的性质:
- 若 F n → w F F_n\stackrel w\to F Fn→wF且 F F F是连续的分布函数,则 F n ( x ) F_n(x) Fn(x)在 R \R R上一致收敛于 F ( x ) F(x) F(x)。
- 对于 R \R R上的连续函数 g ( x ) g(x) g(x),若 ξ n → d ξ \xi_n\stackrel d\to \xi ξn→dξ,则 g ( ξ n ) → d g ( ξ ) g(\xi_n)\stackrel d\to g(\xi) g(ξn)→dg(ξ)。
- 设 { a n } , { b n } \{a_n\},\{b_n\} {an},{bn}为常数列,且 a n → a , b n → b , F n → w F a_n\to a,b_n\to b,F_n\stackrel w\to F an→a,bn→b,Fn→wF,则对任何 F F F的连续点 x x x,有 F n ( a n x + b n ) → F ( a x + b ) F_n(a_nx+b_n)\to F(ax+b) Fn(anx+bn)→F(ax+b),从而 a n ξ n + b n → d a ξ + b a_n\xi_n+b_n\stackrel d\to a\xi+b anξn+bn→daξ+b。
- 如果 ξ n → d ξ , η n → d c \xi_n\stackrel d\to\xi,\eta_n\stackrel d\to c ξn→dξ,ηn→dc,则 ξ n + η n → d ξ + c , ξ n η n → d ξ c ( c ≠ 0 ) \xi_n+\eta_n\stackrel d\to\xi+c,\frac{\xi_n}{\eta_n}\stackrel d\to\frac{\xi}{c}(c\ne 0) ξn+ηn→dξ+c,ηnξn→dcξ(c=0)。
2.依概率收敛
分布函数刻画了随机变量取值的分布规律,但无法具体到随机变量对应的事件,也就是无法具体到每一个样本点 ω \omega ω的取值 ξ ( ω ) \xi(\omega) ξ(ω)。依概率收敛则更进一步,对样本空间做出了收敛的要求。
一列随机变量 ξ n \xi_n ξn依概率收敛于 ξ \xi ξ,指 ∀ ε ≥ 0 \forall \varepsilon\ge 0 ∀ε≥0, lim n → ∞ P ( ∣ ξ n − ξ ∣ ≥ ε ) = 0 \lim\limits_{n\to \infty}P(|\xi_n-\xi|\ge \varepsilon)=0 n→∞limP(∣ξn−ξ∣≥ε)=0,即不收敛的样本点在样本空间中的概率是0。依概率收敛记作 ξ n → P ξ \xi_n\stackrel P\to \xi ξn→Pξ。
由于依概率收敛更进一步地要求到样本点上,所以依概率收敛的收敛性比依分布收敛要强,即 ξ n → P ξ \xi_n\stackrel P\to \xi ξn→Pξ可以推出 ξ n → d ξ \xi_n \stackrel d\to \xi ξn→dξ,但反之不成立。然而,如果 ξ n → d c \xi_n\stackrel d\to c ξn→dc为常数,则 ξ n → P c \xi_n\stackrel P\to c ξn→Pc,这是因为如果随机变量列依分布收敛于常数,则 ξ ( ω ) → c \xi(\omega)\to c ξ(ω)→c的样本点 ω \omega ω组成的集合 Ω ′ \Omega' Ω′就会趋近于 Ω \Omega Ω。
- 由此,要证明随机变量列依概率收敛于常数
c
c
c,只要证明其分布函数弱收敛于退化分布的分布函数。不过,更常用的证明方法是Chebyshev不等式,即
P ( ∣ ξ n − E ξ n ∣ ≥ ε ) ≤ D ξ n ε 2 . P(|\xi_n-E\xi_n|\ge \varepsilon)\le \frac{D\xi_n}{\varepsilon^2}. P(∣ξn−Eξn∣≥ε)≤ε2Dξn.
依概率收敛也有一些常用的性质:
- 若 X n → P ξ , X n → P η X_n\stackrel P\to \xi,X_n\stackrel P\to \eta Xn→Pξ,Xn→Pη,则 P ( ξ = η ) = 1 P(\xi=\eta)=1 P(ξ=η)=1。
- 若 ξ n → P ξ \xi_n\stackrel P\to \xi ξn→Pξ,且 f f f是 R \R R上的连续函数,则 f ( ξ n ) → P f ( ξ ) f(\xi_n)\stackrel P\to f(\xi) f(ξn)→Pf(ξ)。也就是说,对于依概率收敛的情形,一样有连续随机变量函数依概率收敛。
- 如果 ξ n → P ξ , η n → P η \xi_n\stackrel P\to \xi,\eta_n\stackrel P\to\eta ξn→Pξ,ηn→Pη,则 ξ n ± η n → P ξ ± η , ξ n η n → P ξ η \xi_n\pm\eta_n \stackrel P\to \xi\pm \eta,\xi_n\eta_n\stackrel P\to\xi\eta ξn±ηn→Pξ±η,ξnηn→Pξη。
- 如果 ξ n → P ξ , η n → P c \xi_n\stackrel P\to\xi,\eta_n\stackrel P\to c ξn→Pξ,ηn→Pc,且 η n , c ≠ 0 \eta_n,c\ne0 ηn,c=0,则 ξ n η n → P ξ c \frac{\xi_n}{\eta_n}\stackrel P\to\frac{\xi}{c} ηnξn→Pcξ。
3. r r r阶平均收敛
r r r阶平均收敛的定义是,对于 ξ n \xi_n ξn与 ξ \xi ξ且 E ∣ ξ n ∣ r < ∞ , E ∣ ξ ∣ r < ∞ E|\xi_n|^r<\infty,E|\xi|^r <\infty E∣ξn∣r<∞,E∣ξ∣r<∞,如果 E ∣ ξ n − ξ ∣ r → 0 E|\xi_n-\xi|^r \to 0 E∣ξn−ξ∣r→0,则称 { ξ n } \{\xi_n\} {ξn} r r r阶平均收敛于 ξ \xi ξ,记作 ξ n → L r ξ \xi_n\stackrel {L_r}\to \xi ξn→Lrξ。 r = 2 r=2 r=2的情况又称为均方收敛。
如果存在
0
<
r
<
∞
0<r<\infty
0<r<∞,使得
ξ
n
→
L
r
ξ
\xi_n\stackrel {L_r}\to \xi
ξn→Lrξ,则必有
ξ
n
→
P
ξ
\xi_n\stackrel P\to \xi
ξn→Pξ,这一结论的证明用到Markov不等式,即对于
[
0
,
∞
)
[0,\infty)
[0,∞)上的单调不减函数
f
(
x
)
f(x)
f(x),有
P
(
∣
ξ
∣
>
x
)
≤
E
f
(
∣
ξ
∣
)
f
(
x
)
.
P(|\xi|>x)\le \frac{Ef(|\xi|)}{f(x)}.
P(∣ξ∣>x)≤f(x)Ef(∣ξ∣).
这一结论的证明可以仿照Chebyshev不等式,即
P
(
∣
ξ
∣
>
x
)
=
∫
∣
t
∣
>
x
d
F
(
t
)
≤
∫
∣
t
∣
>
x
f
(
∣
t
∣
)
f
(
x
)
d
F
(
t
)
≤
∫
−
∞
∞
f
(
∣
t
∣
)
f
(
x
)
d
F
(
t
)
=
E
f
(
∣
ξ
∣
)
f
(
x
)
.
\begin{aligned} P(|\xi|>x)=&\int_{|t|>x}dF(t)\\ \le &\int_{|t|>x}\frac{f(|t|)}{f(x)}dF(t)\\ \le&\int_{-\infty}^\infty \frac{f(|t|)}{f(x)}dF(t)\\ =&\frac{Ef(|\xi|)}{f(x)}. \end{aligned}
P(∣ξ∣>x)=≤≤=∫∣t∣>xdF(t)∫∣t∣>xf(x)f(∣t∣)dF(t)∫−∞∞f(x)f(∣t∣)dF(t)f(x)Ef(∣ξ∣).
再令
f
(
x
)
=
x
r
f(x)=x^r
f(x)=xr,对
∣
ξ
n
−
ξ
∣
|\xi_n-\xi|
∣ξn−ξ∣运用Markov不等式即可,有
P
(
∣
ξ
n
−
ξ
∣
>
x
)
≤
E
∣
ξ
n
−
ξ
∣
r
x
r
→
0.
P(|\xi_n-\xi|>x)\le\frac{E|\xi_n-\xi|^r}{x^r}\to 0.
P(∣ξn−ξ∣>x)≤xrE∣ξn−ξ∣r→0.
4.几乎必然收敛
依概率收敛是针对样本空间而言的,而随机变量更具体些,是定义到每一个样本点上的,所以如果对几乎每一个样本点建立点收敛性,那么也可以定义随机变量的收敛,此时称为以概率1收敛。
以概率1收敛(几乎必然收敛)的定义是,对于 ξ n \xi_n ξn与 ξ \xi ξ,它们共用一个概率空间 Ω \Omega Ω,如果对于存在一个 Ω 0 ∈ F \Omega_0\in \mathscr F Ω0∈F,使得 P ( Ω 0 ) = 1 P(\Omega_0)=1 P(Ω0)=1,也就是对一个概率为1的样本点集合, ∀ ω ∈ Ω 0 \forall \omega \in \Omega_0 ∀ω∈Ω0,有 ξ n ( ω ) → ξ ( ω ) \xi_n(\omega)\to \xi(\omega) ξn(ω)→ξ(ω),则称 ξ n \xi_n ξn几乎必然收敛于 ξ \xi ξ,记作 ξ n → ξ a.s. \xi_n\to \xi\quad\text{a.s.} ξn→ξa.s.。
以概率1收敛是比依概率收敛更强的收敛性定义,也是最强的收敛定义,换言之,如果 ξ n → ξ a.s. \xi_n\to \xi\quad\text{a.s.} ξn→ξa.s.,则必有 ξ n → P ξ \xi_n\stackrel P\to \xi ξn→Pξ,但反之不成立。