12.第四章 极限定理(1)

第四章 极限定理(1)

1.依分布收敛

数列极限、函数极限、级数极限都已经用严格的方式证明了,但随机变量是无穷多的样本点映射到实数的,如果有一列随机变量列,要描述它的收敛性,应该采用怎样的定义,是值得讨论的问题。依分布收敛是随机变量收敛的一种定义,它的定义对象主要是刻画随机变量的分布函数,因而叫依分布收敛。

一列随机变量 { ξ n } \{\xi_n\} {ξn}依分布收敛于 ξ \xi ξ,需要满足 { ξ n } \{\xi_n\} {ξn}的分布函数 { F n ( x ) } \{F_n(x)\} {Fn(x)}弱收敛 ξ \xi ξ的分布函数 F ( x ) F(x) F(x),分布函数弱收敛指的是对于收敛对象 F ( x ) F(x) F(x)的每一个连续点 x ∈ R x\in \R xR,随着 n → ∞ n\to\infty n都有 F n ( x ) → F ( x ) F_n(x)\to F(x) Fn(x)F(x),即 F F F连续点是点点收敛的。将依分布收敛记作 ξ n → d ξ \xi_n \stackrel d\to\xi ξndξ,分布函数弱收敛记作 F n → w F F_n\stackrel w\to F FnwF

  • 分布函数弱收敛,是一个不高的收敛要求,因为它对于 F ( x ) F(x) F(x)的不连续点没有要求,这就给了离散型随机变量很大的宽容性。
  • 在说明弱收敛时,一定要指出 F ( x ) F(x) F(x) { F n ( x ) } \{F_n(x)\} {Fn(x)},因为分布函数列的逐点收敛极限并不一定还是分布函数。
  • Helly第一定理指出,分布函数列 { F n ( x ) } \{F_n(x)\} {Fn(x)}必定有收敛子函数列 F n k ( x ) F_{n_k}(x) Fnk(x),能够找到一个 F ( x ) F(x) F(x)使得在 F ( x ) F(x) F(x)的连续点处, F n k ( x ) → F ( x ) F_{n_k(x)}\to F(x) Fnk(x)F(x)。这里 F ( x ) F(x) F(x)不一定是分布函数,但一定满足 0 ≤ F ( x ) ≤ 1 , x ∈ R 0\le F(x)\le 1,x\in \R 0F(x)1,xR
  • Helly第二定理指出,如果 ξ n → d ξ \xi_n\stackrel d\to \xi ξndξ,则对于 R \R R上的有界连续函数,有 E ( g ( ξ n ) ) → E ( g ( ξ ) ) E(g(\xi_n))\to E(g(\xi)) E(g(ξn))E(g(ξ))。也就是说,依分布收敛能保证对于有界连续函数,其随机变量函数期望收敛。值得注意的是,由于 y = x y=x y=x R \R R上无界,不一定能保证 E ( ξ n ) → E ( ξ ) E(\xi_n)\to E(\xi) E(ξn)E(ξ)
  • Levy连续性定理指出,如果 F n → w F F_n\stackrel w\to F FnwF,则相应的特征函数列在关于 t t t的任何有界区间内一致收敛 F F F特征函数 f ( t ) f(t) f(t)
  • 逆极限定理指出,如果 f n ( t ) → f ( t ) f_n(t)\to f(t) fn(t)f(t) t ∈ R t\in \R tR成立,且 f ( t ) f(t) f(t) t = 0 t=0 t=0处连续,则 f ( t ) f(t) f(t)一定是某个分布函数 F F F的特征函数,且 F n → w F F_n\stackrel w\to F FnwF
  • 对于 ξ n \xi_n ξn ξ \xi ξ,如果它们存在概率密度函数 p n ( x ) , p ( x ) p_n(x),p(x) pn(x),p(x)分布列 p n ( x i ) , p ( x i ) p_n(x_i),p(x_i) pn(xi),p(xi),且对于任何 x x x x i x_i xi,有 p n ( x ) → p ( x ) p_n(x)\to p(x) pn(x)p(x) p n ( x i ) → p ( x i ) p_n(x_i)\to p(x_i) pn(xi)p(xi),则 ξ n → d ξ \xi_n \stackrel d\to \xi ξndξ
  • 以上结论均不需要证明

实际上,要证明 ξ n → ξ \xi_n\to \xi ξnξ,主要用到的条件是概率密度或分布列的收敛或者特征函数的收敛。如果它们是收敛的,就得到随机变量的依分布收敛,从而得到随机变量有界连续函数的收敛。

依分布收敛还有以下重要的性质:

  • F n → w F F_n\stackrel w\to F FnwF F F F是连续的分布函数,则 F n ( x ) F_n(x) Fn(x) R \R R一致收敛 F ( x ) F(x) F(x)
  • 对于 R \R R上的连续函数 g ( x ) g(x) g(x),若 ξ n → d ξ \xi_n\stackrel d\to \xi ξndξ,则 g ( ξ n ) → d g ( ξ ) g(\xi_n)\stackrel d\to g(\xi) g(ξn)dg(ξ)
  • { a n } , { b n } \{a_n\},\{b_n\} {an},{bn}为常数列,且 a n → a , b n → b , F n → w F a_n\to a,b_n\to b,F_n\stackrel w\to F ana,bnb,FnwF,则对任何 F F F的连续点 x x x,有 F n ( a n x + b n ) → F ( a x + b ) F_n(a_nx+b_n)\to F(ax+b) Fn(anx+bn)F(ax+b),从而 a n ξ n + b n → d a ξ + b a_n\xi_n+b_n\stackrel d\to a\xi+b anξn+bndaξ+b
  • 如果 ξ n → d ξ , η n → d c \xi_n\stackrel d\to\xi,\eta_n\stackrel d\to c ξndξ,ηndc,则 ξ n + η n → d ξ + c , ξ n η n → d ξ c ( c ≠ 0 ) \xi_n+\eta_n\stackrel d\to\xi+c,\frac{\xi_n}{\eta_n}\stackrel d\to\frac{\xi}{c}(c\ne 0) ξn+ηndξ+c,ηnξndcξ(c=0)

2.依概率收敛

分布函数刻画了随机变量取值的分布规律,但无法具体到随机变量对应的事件,也就是无法具体到每一个样本点 ω \omega ω的取值 ξ ( ω ) \xi(\omega) ξ(ω)。依概率收敛则更进一步,对样本空间做出了收敛的要求。

一列随机变量 ξ n \xi_n ξn依概率收敛于 ξ \xi ξ,指 ∀ ε ≥ 0 \forall \varepsilon\ge 0 ε0 lim ⁡ n → ∞ P ( ∣ ξ n − ξ ∣ ≥ ε ) = 0 \lim\limits_{n\to \infty}P(|\xi_n-\xi|\ge \varepsilon)=0 nlimP(ξnξε)=0,即不收敛的样本点在样本空间中的概率是0。依概率收敛记作 ξ n → P ξ \xi_n\stackrel P\to \xi ξnPξ

由于依概率收敛更进一步地要求到样本点上,所以依概率收敛的收敛性比依分布收敛要强,即 ξ n → P ξ \xi_n\stackrel P\to \xi ξnPξ可以推出 ξ n → d ξ \xi_n \stackrel d\to \xi ξndξ,但反之不成立。然而,如果 ξ n → d c \xi_n\stackrel d\to c ξndc为常数,则 ξ n → P c \xi_n\stackrel P\to c ξnPc,这是因为如果随机变量列依分布收敛于常数,则 ξ ( ω ) → c \xi(\omega)\to c ξ(ω)c的样本点 ω \omega ω组成的集合 Ω ′ \Omega' Ω就会趋近于 Ω \Omega Ω

  • 由此,要证明随机变量列依概率收敛于常数 c c c,只要证明其分布函数弱收敛于退化分布的分布函数。不过,更常用的证明方法是Chebyshev不等式,即
    P ( ∣ ξ n − E ξ n ∣ ≥ ε ) ≤ D ξ n ε 2 . P(|\xi_n-E\xi_n|\ge \varepsilon)\le \frac{D\xi_n}{\varepsilon^2}. P(ξnEξnε)ε2Dξn.

依概率收敛也有一些常用的性质:

  • X n → P ξ , X n → P η X_n\stackrel P\to \xi,X_n\stackrel P\to \eta XnPξ,XnPη,则 P ( ξ = η ) = 1 P(\xi=\eta)=1 P(ξ=η)=1
  • ξ n → P ξ \xi_n\stackrel P\to \xi ξnPξ,且 f f f R \R R上的连续函数,则 f ( ξ n ) → P f ( ξ ) f(\xi_n)\stackrel P\to f(\xi) f(ξn)Pf(ξ)。也就是说,对于依概率收敛的情形,一样有连续随机变量函数依概率收敛。
  • 如果 ξ n → P ξ , η n → P η \xi_n\stackrel P\to \xi,\eta_n\stackrel P\to\eta ξnPξ,ηnPη,则 ξ n ± η n → P ξ ± η , ξ n η n → P ξ η \xi_n\pm\eta_n \stackrel P\to \xi\pm \eta,\xi_n\eta_n\stackrel P\to\xi\eta ξn±ηnPξ±η,ξnηnPξη
  • 如果 ξ n → P ξ , η n → P c \xi_n\stackrel P\to\xi,\eta_n\stackrel P\to c ξnPξ,ηnPc,且 η n , c ≠ 0 \eta_n,c\ne0 ηn,c=0,则 ξ n η n → P ξ c \frac{\xi_n}{\eta_n}\stackrel P\to\frac{\xi}{c} ηnξnPcξ

3. r r r阶平均收敛

r r r阶平均收敛的定义是,对于 ξ n \xi_n ξn ξ \xi ξ E ∣ ξ n ∣ r < ∞ , E ∣ ξ ∣ r < ∞ E|\xi_n|^r<\infty,E|\xi|^r <\infty Eξnr<,Eξr<,如果 E ∣ ξ n − ξ ∣ r → 0 E|\xi_n-\xi|^r \to 0 Eξnξr0,则称 { ξ n } \{\xi_n\} {ξn} r r r阶平均收敛于 ξ \xi ξ,记作 ξ n → L r ξ \xi_n\stackrel {L_r}\to \xi ξnLrξ r = 2 r=2 r=2的情况又称为均方收敛。

如果存在 0 < r < ∞ 0<r<\infty 0<r<,使得 ξ n → L r ξ \xi_n\stackrel {L_r}\to \xi ξnLrξ,则必有 ξ n → P ξ \xi_n\stackrel P\to \xi ξnPξ,这一结论的证明用到Markov不等式,即对于 [ 0 , ∞ ) [0,\infty) [0,)上的单调不减函数 f ( x ) f(x) f(x),有
P ( ∣ ξ ∣ > x ) ≤ E f ( ∣ ξ ∣ ) f ( x ) . P(|\xi|>x)\le \frac{Ef(|\xi|)}{f(x)}. P(ξ>x)f(x)Ef(ξ).
这一结论的证明可以仿照Chebyshev不等式,即
P ( ∣ ξ ∣ > x ) = ∫ ∣ t ∣ > x d F ( t ) ≤ ∫ ∣ t ∣ > x f ( ∣ t ∣ ) f ( x ) d F ( t ) ≤ ∫ − ∞ ∞ f ( ∣ t ∣ ) f ( x ) d F ( t ) = E f ( ∣ ξ ∣ ) f ( x ) . \begin{aligned} P(|\xi|>x)=&\int_{|t|>x}dF(t)\\ \le &\int_{|t|>x}\frac{f(|t|)}{f(x)}dF(t)\\ \le&\int_{-\infty}^\infty \frac{f(|t|)}{f(x)}dF(t)\\ =&\frac{Ef(|\xi|)}{f(x)}. \end{aligned} P(ξ>x)==t>xdF(t)t>xf(x)f(t)dF(t)f(x)f(t)dF(t)f(x)Ef(ξ).
再令 f ( x ) = x r f(x)=x^r f(x)=xr,对 ∣ ξ n − ξ ∣ |\xi_n-\xi| ξnξ运用Markov不等式即可,有
P ( ∣ ξ n − ξ ∣ > x ) ≤ E ∣ ξ n − ξ ∣ r x r → 0. P(|\xi_n-\xi|>x)\le\frac{E|\xi_n-\xi|^r}{x^r}\to 0. P(ξnξ>x)xrEξnξr0.

4.几乎必然收敛

依概率收敛是针对样本空间而言的,而随机变量更具体些,是定义到每一个样本点上的,所以如果对几乎每一个样本点建立点收敛性,那么也可以定义随机变量的收敛,此时称为以概率1收敛。

以概率1收敛(几乎必然收敛)的定义是,对于 ξ n \xi_n ξn ξ \xi ξ,它们共用一个概率空间 Ω \Omega Ω,如果对于存在一个 Ω 0 ∈ F \Omega_0\in \mathscr F Ω0F,使得 P ( Ω 0 ) = 1 P(\Omega_0)=1 P(Ω0)=1,也就是对一个概率为1的样本点集合, ∀ ω ∈ Ω 0 \forall \omega \in \Omega_0 ωΩ0,有 ξ n ( ω ) → ξ ( ω ) \xi_n(\omega)\to \xi(\omega) ξn(ω)ξ(ω),则称 ξ n \xi_n ξn几乎必然收敛于 ξ \xi ξ,记作 ξ n → ξ a.s. \xi_n\to \xi\quad\text{a.s.} ξnξa.s.

以概率1收敛是比依概率收敛更强的收敛性定义,也是最强的收敛定义,换言之,如果 ξ n → ξ a.s. \xi_n\to \xi\quad\text{a.s.} ξnξa.s.,则必有 ξ n → P ξ \xi_n\stackrel P\to \xi ξnPξ,但反之不成立。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值