1. 切比雪夫不等式
-
定理
设随机变量 X X X具有数学期望 E ( X ) = μ E(X)=\mu E(X)=μ,方差 D ( X ) = σ 2 D(X)=\sigma^2 D(X)=σ2,则对于任意正数 ϵ \epsilon ϵ,不等式 P { ∣ X − μ ∣ ≥ ϵ } ≤ σ 2 ϵ 2 P\{|X-\mu|\geq\epsilon\}\leq \frac{\sigma^2}{\epsilon^2} P{∣X−μ∣≥ϵ}≤ϵ2σ2
成立,这一不等式称为切比雪夫(Chebyshev)不等式 . 该不等式也可写作 P { ∣ X − μ ∣ < ϵ } ≥ 1 − σ 2 ϵ 2 P\{|X-\mu|<\epsilon\}\geq 1-\frac{\sigma^2}{\epsilon^2} P{∣X−μ∣<ϵ}≥1−ϵ2σ2
证明
对于离散型有
P { ∣ X − μ ∣ ≥ ϵ } = ∑ k = μ − ϵ k = μ + ϵ p k ≤ ∑ k = μ − ϵ k = μ + ϵ p k ( k − μ ) 2 ϵ 2 ( ∵ ∣ X − μ ∣ ≥ ϵ ∴ ( k − μ ) 2 ϵ 2 ≥ 1 ) ≤ 1 ϵ 2 ∑ k = 0 + ∞ p k ( k − μ ) 2 ( 级 数 p i ( k − μ ) 2 ≥ 0 , 因 此 扩 大 其 累 加 范 围 , 其 结 果 必 然 不 减 ) = D ( X ) ϵ 2 = σ 2 ϵ 2 \begin{aligned} P\{|X-\mu|\geq\epsilon\} &= \sum\limits_{k=\mu-\epsilon}^{k=\mu+\epsilon}p_k \leq \sum\limits_{k=\mu-\epsilon}^{k=\mu+\epsilon}p_k\frac{(k-\mu)^2}{\epsilon^2} \quad (\because |X-\mu|\geq\epsilon \quad \therefore\frac{(k-\mu)^2}{\epsilon^2} \geq 1) \\ &\leq \frac{1}{\epsilon^2}\sum\limits_{k=0}^{+\infty}p_k(k-\mu)^2 \quad (级数p_i(k-\mu)^2\geq0 ,因此扩大其累加范围,其结果必然不减)\\&=\frac{D(X)}{\epsilon^2} = \frac{\sigma^2}{\epsilon^2} \end{aligned} P{∣X−μ∣≥ϵ}=k=μ−ϵ∑k=μ+ϵpk≤k=μ−ϵ∑k=μ+ϵpkϵ2(k−μ)2(∵∣X−μ∣≥ϵ∴ϵ2(k−μ)2≥1)≤ϵ21k=0∑+∞pk(k−μ)2(级数pi(k−μ)2≥0,因此扩大其累加范围,其结果必然不减)=ϵ2D(X)=ϵ2σ2
对于连续型有P { ∣ X − μ ∣ ≥ ϵ } = ∫ ∣ x − μ ∣ ≥ ϵ f ( x ) ≤ ∫ ∣ x − μ ∣ ≥ ϵ f ( x ) ( x − μ ) 2 ϵ 2 ( ∵ ∣ x − μ ∣ ≥ ϵ ∴ ( x − μ ) 2 ϵ 2 ≥ 1 ) ≤ 1 ϵ 2 ∫ − ∞ + ∞ f ( x ) ( x − μ ) 2 ( 被 积 函 数 f ( x ) ( x − μ ) 2 ≥ 0 , 因 此 扩 大 其 积 分 范 围 , 其 结 果 必 然 不 减 ) = D ( X ) ϵ 2 = σ 2 ϵ 2 \begin{aligned} P\{|X-\mu|\geq\epsilon\} &= \int\limits_{|x-\mu|\geq\epsilon}f(x) \leq \int\limits_{|x-\mu|\geq\epsilon}f(x)\frac{(x-\mu)^2}{\epsilon^2} \quad (\because |x-\mu|\geq\epsilon \quad \therefore\frac{(x-\mu)^2}{\epsilon^2} \geq 1) \\ &\leq \frac{1}{\epsilon^2}\int\nolimits_{-\infty}^{+\infty}f(x)(x-\mu)^2 \quad (被积函数f(x)(x-\mu)^2\geq0 ,因此扩大其积分范围,其结果必然不减)\\&=\frac{D(X)}{\epsilon^2} = \frac{\sigma^2}{\epsilon^2} \end{aligned} P{∣X−μ∣≥ϵ}=∣x−μ∣≥ϵ∫f(x)≤∣x−μ∣≥ϵ∫f(x)ϵ2(x−μ)2(∵∣x−μ∣≥ϵ∴ϵ2(x−μ)2≥1)≤ϵ21∫−∞+∞f(x)(x−μ)2(被积函数f(x)(x−μ)2≥0,因此扩大其积分范围,其结果必然不减)=ϵ2D(X)=ϵ2σ2
-
理解
首先 P { ∣ X − μ ∣ ≥ ϵ } P\{|X-\mu|\geq\epsilon\} P{∣X−μ∣≥ϵ} ,表示随便变量 X X X,落在以数学期望 μ \mu μ为中心, ϵ \epsilon ϵ范围以外的概率,用数轴简单表示如下
切比雪夫不等式描述了随机变量取值落在图中阴影部分的概率值上限为 D ( X ) ϵ 2 \frac{D(X)}{\epsilon^2} ϵ2D(X) ,其中 D ( X ) D(X) D(X)为方差,表示随机变量偏离期望的程度
-
当 ϵ \epsilon ϵ固定,方差越小,说明随机变量取值越多的集中在期望附近,则落在阴影区域 ∣ X − μ ∣ ≥ ϵ |X-\mu|\geq\epsilon ∣X−μ∣≥ϵ内的概率就会变小,对应到切比雪夫不等式,表现为概率上限 D ( X ) ϵ 2 \frac{D(X)}{\epsilon^2} ϵ2D(X)变小。反之方差越大,随机变量偏离期望的程度越大,则落在阴影区域内的概率就会增大,对应到对应到切比雪夫不等式,表现为概率上限 D ( X ) ϵ 2 \frac{D(X)}{\epsilon^2} ϵ2D(X)变大
-
当方差 D ( X ) D(X) D(X) 固定, ϵ \epsilon ϵ 越小, 则说明阴影区域越靠近期望 E ( X ) E(X) E(X) ,如图中的 ϵ 2 \epsilon_2 ϵ2,很明显以 ϵ 2 \epsilon_2 ϵ2为范围的阴影区域,要大于以 ϵ 1 \epsilon_1 ϵ1为范围的阴影区域,此时对应到切比雪夫不等式,表现为概率上限 D ( X ) ϵ 2 \frac{D(X)}{\epsilon^2} ϵ2D(X)变大
-
意义
切比雪夫不等式给出了随机变量的分布未知,只知道期数学期望和方差的情况下, P { ∣ X − μ ∣ ≥ ϵ } P\{|X-\mu|\geq\epsilon\} P{∣X−μ∣≥ϵ}的概率界限。根据切比雪夫不等式 P { ∣ X − μ ∣ < ϵ } ≥ 1 − σ 2 ϵ 2 P\{|X-\mu|<\epsilon\}\geq 1-\frac{\sigma^2}{\epsilon^2} P{∣X−μ∣<ϵ}≥1−ϵ2σ2
- 当 ϵ = 2 σ \epsilon=2\sigma ϵ=2σ 时, P { ∣ X − μ ∣ < ϵ } ≥ 1 − σ 2 ϵ 2 = 0.75 P\{|X-\mu|<\epsilon\}\geq 1-\frac{\sigma^2}{\epsilon^2}=0.75 P{∣X−μ∣<ϵ}≥1−ϵ2σ2=0.75
- 当 ϵ = 3 σ \epsilon=3\sigma ϵ=3σ 时, P { ∣ X − μ ∣ < ϵ } ≥ 1 − σ 2 ϵ 2 = 0.8889 P\{|X-\mu|<\epsilon\}\geq 1-\frac{\sigma^2}{\epsilon^2}=0.8889 P{∣X−μ∣<ϵ}≥1−ϵ2σ2=0.8889
- 当 ϵ = 4 σ \epsilon=4\sigma ϵ=4σ 时, P { ∣ X − μ ∣ < ϵ } ≥ 1 − σ 2 ϵ 2 = 0.9375 P\{|X-\mu|<\epsilon\}\geq 1-\frac{\sigma^2}{\epsilon^2}=0.9375 P{∣X−μ∣<ϵ}≥1−ϵ2σ2=0.9375
- 当 ϵ = 5 σ \epsilon=5\sigma ϵ=5σ 时, P { ∣ X − μ ∣ < ϵ } ≥ 1 − σ 2 ϵ 2 = 0.96 P\{|X-\mu|<\epsilon\}\geq 1-\frac{\sigma^2}{\epsilon^2}=0.96 P{∣X−μ∣<ϵ}≥1−ϵ2σ2=0.96
2. 依概率收敛
-
定义
设 X 1 , X 2 , X 3 , ⋯ , X n , ⋯ X_1,X_2,X_3,\cdots,X_n,\cdots X1,X2,X3,⋯,Xn,⋯ 是一个随机变量序列, a a a 是一个常数,若对于任意正数 ϵ \epsilon ϵ 有 lim n → + ∞ P { ∣ X n − a ∣ < ϵ } = 1 \lim\limits_{n\to+\infty}P\bigg\{\bigg|X_n-a\bigg|<\epsilon\bigg\}=1 n→+∞limP{∣∣∣∣Xn−a∣∣∣∣<ϵ}=1则称序列 X 1 , X 2 , X 3 , ⋯ , X n , ⋯ X_1,X_2,X_3,\cdots,X_n,\cdots X1,X2,X3,⋯,Xn,⋯ 依概率收敛于 a \pmb{a} aaa ,记做 X n → P a . X_n \stackrel{P}{\to} a. Xn→Pa.
-
理解
我们知道,事件发生的概率为 1 1 1,并不代表该事件为必然事件。所以这里的依概率收敛,可以按这个思路来理解,整体是向 a a a逼近,但是可能出现个别的离散点偏离 a a a较远,但是不影响大趋势。这也是区别于收敛的地方,收敛要求满足特定条件后,所有点均逼近 a a a .
3. 切比雪夫大数定理
-
定理内容
设 X 1 , X 2 , X 3 , ⋯ X_1,X_2,X_3,\cdots X1,X2,X3,⋯ 是两两互不相关的随机变量序列,数学期望 E ( X i ) E(X_i) E(Xi)和方差 D ( X i ) D(X_i) D(Xi)都存在 ( i = 1 , 2 , 3 , ⋯ ) (i=1,2,3,\cdots) (i=1,2,3,⋯),且存在常数 C , ( 0 ≤ C < + ∞ ) C ,(0\leq C < +\infty) C,(0≤C<+∞),使得 D ( X ) ≤ C D(X)\leq C D(X)≤C,则对于任意的 ϵ > 0 \epsilon>0 ϵ>0 有 lim n → + ∞ P { ∣ 1 n ∑ i = 1 n X i − 1 n ∑ i = 1 n E ( X i ) ∣ < ϵ } = 1 \lim\limits_{n\to+\infty}P\bigg\{\bigg|\frac{1}{n}\sum\limits_{i=1}^{n}X_i-\frac{1}{n}\sum\limits_{i=1}^{n}E(X_i)\bigg|<\epsilon\bigg\}=1 n→+∞limP{∣∣∣∣n1i=1∑nXi−n1i=1∑nE(Xi)∣∣∣∣<ϵ}=1
证明
E ( 1 n ∑ i = 1 n X i ) = 1 n ∑ i = 1 n E ( X i ) \begin{aligned} &E(\frac{1}{n}\sum\limits_{i=1}^{n}X_i)= \frac{1}{n}\sum\limits_{i=1}^{n}E(X_i)\end{aligned} E(n1i=1∑nXi)=n1i=1∑nE(Xi)
因为 X 1 , X 2 , X 3 , ⋯ X_1,X_2,X_3,\cdots X1,X2,X3,⋯ 相互独立,因此有
D ( 1 n ∑ i = 1 n X i ) = 1 n 2 ∑ i = 1 n D ( X i ) ≤ 1 n 2 n C = C n \begin{aligned} D(\frac{1}{n}\sum\limits_{i=1}^{n}X_i) = \frac{1}{n^2}\sum\limits_{i=1}^{n}D(X_i)\leq\frac{1}{n^2}nC=\frac{C}{n}\end{aligned} D(n1i=1∑nXi)=n21i=1∑nD(Xi)≤n21nC=nC
根据切比雪夫不等式可知
P { ∣ 1 n ∑ i = 1 n X i − 1 n ∑ i = 1 n E ( X i ) ∣ < ϵ } ≥ 1 − 1 n 2 ∑ i = 1 n D ( X i ) ϵ 2 ≥ 1 − C n ϵ 2 ∴ \begin{aligned} P\bigg\{\bigg|\frac{1}{n}\sum\limits_{i=1}^{n}X_i-\frac{1}{n}\sum\limits_{i=1}^{n}E(X_i)\bigg|<\epsilon\bigg\} &\geq 1- \frac{\frac{1}{n^2}\sum\limits_{i=1}^{n}D(X_i)}{\epsilon^2} \geq1- \frac{C}{n\epsilon^2}\\\therefore \quad \end{aligned} P{∣∣∣∣n1i=1∑nXi−n1i=1∑nE(Xi)∣∣∣∣<ϵ}∴≥1−ϵ2n21i=1∑nD(Xi)≥1−nϵ2C
当 n → + ∞ n\to+\infty n→+∞时 1 − C n ϵ 2 → 1 1- \frac{C}{n\epsilon^2} \to1 1−nϵ2C→1 ,且根据概率定义,必然有 P { ∣ 1 n ∑ i = 1 n X i − 1 n ∑ i = 1 n E ( X i ) ∣ < ϵ } ≤ 1 P\bigg\{\bigg|\frac{1}{n}\sum\limits_{i=1}^{n}X_i-\frac{1}{n}\sum\limits_{i=1}^{n}E(X_i)\bigg|<\epsilon\bigg\} \leq 1 P{∣∣∣∣n1i=1∑nXi−n1i=1∑nE(Xi)∣∣∣∣<ϵ}≤1 成立.
∴ lim n → + ∞ P { ∣ 1 n ∑ i = 1 n X i − 1 n ∑ i = 1 n E ( X i ) ∣ < ϵ } = 1 \therefore \quad \lim\limits_{n\to+\infty}P\bigg\{\bigg|\frac{1}{n}\sum\limits_{i=1}^{n}X_i-\frac{1}{n}\sum\limits_{i=1}^{n}E(X_i)\bigg|<\epsilon\bigg\}=1 ∴n→+∞limP{∣∣∣∣n1i=1∑nXi−n1i=1∑nE(Xi)∣∣∣∣<ϵ}=1
-
推论
设 X 1 , X 2 , X 3 , ⋯ X_1,X_2,X_3,\cdots X1,X2,X3,⋯ 是独立同分布的随机变量序列,数学期望 E ( X i ) = μ E(X_i)=\mu E(Xi)=μ和方差 D ( X i ) = σ 2 D(X_i)=\sigma^2 D(Xi)=σ2都存在 ( i = 1 , 2 , 3 , ⋯ ) (i=1,2,3,\cdots) (i=1,2,3,⋯),则对于任意的 ϵ > 0 \epsilon>0 ϵ>0 有 lim n → + ∞ P { ∣ 1 n ∑ i = 1 n X i − μ ∣ < ϵ } = 1 \lim\limits_{n\to+\infty}P\bigg\{\bigg|\frac{1}{n}\sum\limits_{i=1}^{n}X_i-\mu\bigg|<\epsilon\bigg\}=1 n→+∞limP{∣∣∣∣n1i=1∑nXi−μ∣∣∣∣<ϵ}=1
4. 弱大数定理(辛钦大数定理)
-
定义
设 X 1 , X 2 , ⋯ X_1,X_2,\cdots X1,X2,⋯是独立同分布的随机变量序列,且具有数学期望 E ( X k ) = μ ( k = 1 , 2 , ⋯ ) . E(X_k)=\mu \quad(k=1,2,\cdots). E(Xk)=μ(k=1,2,⋯). 作前 n n n个变量的算术平均 1 n ∑ k = 1 n X k \frac{1}{n}\sum\limits_{k=1}^{n}X_k n1k=1∑nXk,则对于任意 ϵ > 0 \epsilon>0 ϵ>0,有 lim n → + ∞ P { ∣ 1 n ∑ k = 1 n X k − μ ∣ < ϵ } = 1 \lim\limits_{n\to+\infty}P\bigg\{\bigg|\frac{1}{n}\sum\limits_{k=1}^{n}X_k-\mu\bigg|<\epsilon\bigg\}=1 n→+∞limP{∣∣∣∣n1k=1∑nXk−μ∣∣∣∣<ϵ}=1
相比切比雪夫不等式,辛钦大数定理没有要求随机变量的方差存在。如果随机变量方差存在,则利用切比雪夫不等式很容易证得,至于方差不存在时,暂不会证明。
5. 伯努利大数定理
-
定义
设 f A f_A fA 是 n n n次独立重复试验中事件 A A A发生的次数, p p p是事件 A A A在每次试验中发生的概率,则对于任意正数 ϵ > 0 \epsilon>0 ϵ>0,有 lim n → + ∞ P { ∣ f A n − p ∣ < ϵ } = 1. \lim\limits_{n\to+\infty}P\bigg\{\bigg|\frac{f_A}{n}-p\bigg|<\epsilon\bigg\}=1. n→+∞limP{∣∣∣∣nfA−p∣∣∣∣<ϵ}=1.
或 lim n → + ∞ P { ∣ f A n − p ∣ ≥ ϵ } = 0 \lim\limits_{n\to+\infty}P\bigg\{\bigg|\frac{f_A}{n}-p\bigg|\geq\epsilon\bigg\}=0 n→+∞limP{∣∣∣∣nfA−p∣∣∣∣≥ϵ}=0
分析
设 { X k = 1 , 第 k 次 试 验 , A 发 生 X k = 0 , 第 k 次 试 验 , A 不 发 生 \begin{cases}X_k=1,第k次试验,A发生\\X_k=0,第k次试验,A不发生 \end{cases} {Xk=1,第k次试验,A发生Xk=0,第k次试验,A不发生
则 f A = ∑ k = 1 n X k → f A n = 1 n ∑ k = 1 n X k f_A=\sum\limits_{k=1}^{n}X_k \quad \to \frac{f_A}{n}=\frac{1}{n}\sum\limits_{k=1}^{n}X_k fA=k=1∑nXk→nfA=n1k=1∑nXk
对于 n n n重伯努利试验,有数学期望 E ( X k ) = p E(X_k)=p E(Xk)=p
由辛钦大数定理可知有 lim n → + ∞ P { ∣ 1 n ∑ k = 1 n X k − μ ∣ < ϵ } = 1 \lim\limits_{n\to+\infty}P\bigg\{\bigg|\frac{1}{n}\sum\limits_{k=1}^{n}X_k-\mu\bigg|<\epsilon\bigg\}=1 n→+∞limP{∣∣∣∣n1k=1∑nXk−μ∣∣∣∣<ϵ}=1
即
lim n → + ∞ P { ∣ f A n − p ∣ < ϵ } = 1. \lim\limits_{n\to+\infty}P\bigg\{\bigg|\frac{f_A}{n}-p\bigg|<\epsilon\bigg\}=1. n→+∞limP{∣∣∣∣nfA−p∣∣∣∣<ϵ}=1.
该定理表明,当试验次数 n n n足够大时,可以用事件发生的频率代替事件的概率