\quad 极限定理应该算是概率统计中最重要的一个概率工具。很多统计理论都是以极限定理为基础进行推论得到的。
简单说明
\quad
设
X
1
,
X
2
,
…
,
X
n
X_1,X_2,\ldots,X_n
X1,X2,…,Xn为一个独立同分布的随机变量序列,公共分布的均值为
μ
\mu
μ,方差为
σ
2
\sigma^2
σ2。定义前
n
n
n项和为:
S
n
=
X
1
+
X
2
+
⋯
+
X
n
S_n=X_1+X_2+\cdots+X_n
Sn=X1+X2+⋯+Xn
那么极限定理就是研究当
n
→
∞
n \rightarrow \infty
n→∞时
S
n
S_n
Sn的相关性质。
\quad
由相互独立性可知:
v
a
r
(
S
n
)
=
v
a
r
(
X
1
)
+
⋯
+
v
a
r
(
X
n
)
=
n
σ
2
var(S_n) = var(X_1)+\cdots+var(X_n)=n\sigma^2
var(Sn)=var(X1)+⋯+var(Xn)=nσ2
通过上式可以看出当
n
→
∞
n \rightarrow \infty
n→∞时,
S
n
S_n
Sn是发散的,不存在极限。但是样本均值:
M
n
=
X
1
+
⋯
+
X
n
n
=
S
n
n
M_n=\frac{X_1+\cdots+X_n}{n}=\frac{S_n}{n}
Mn=nX1+⋯+Xn=nSn通过简单的计算可以得到
E
[
M
n
]
=
μ
,
v
a
r
(
M
n
)
=
σ
2
n
E[M_n]=\mu,\quad var(M_n)=\frac{\sigma^2}{n}
E[Mn]=μ,var(Mn)=nσ2
所以当
n
→
∞
n \rightarrow \infty
n→∞时,
M
n
M_n
Mn的方差趋近于
0
0
0。也就是说样本均值收敛于同分布的期望
μ
\mu
μ。这就是大数定律的内容。
根
据
正
态
分
布
的
性
质
,
我
们
\quad根据正态分布的性质,我们
根据正态分布的性质,我们用
S
n
S_n
Sn减去
n
μ
n\mu
nμ,可以得到零均值随机变量序列
S
n
−
n
μ
S_n-n\mu
Sn−nμ,然后在除以
S
n
S_n
Sn的标准差
σ
n
\sigma \sqrt{n}
σn得到新的随便变量序列:
Z
n
=
S
n
−
n
μ
σ
n
Z_n = \frac{S_n-n\mu}{\sigma \sqrt{n}}
Zn=σnSn−nμ易证明
E
[
Z
n
]
=
0
,
v
a
r
(
Z
n
)
=
1
E[Z_n]=0, \quad var(Z_n)=1
E[Zn]=0,var(Zn)=1因此
Z
n
Z_n
Zn的均值和方差不依赖样本容量
n
n
n,所以它的分布既不发散,也不收敛于一点。而中央极限定理就是研究
Z
n
Z_n
Zn分布的渐进性质。当
n
→
∞
n \rightarrow \infty
n→∞时,
Z
n
Z_n
Zn的分布就接近标准正态分布。
马尔可夫不等式
\quad 简单的说马尔可夫不等式是指,一个非负随机变量如果均值很小,那么该随机变量取大值得概率也非常小。
马尔可夫不等式
\quad 设随机变量 X X X只取非负值,则对任意 a > 0 a \gt 0 a>0,
P ( X ≥ a ) ≤ E [ X ] a P(X \ge a) \le \frac{E[X]}{a} P(X≥a)≤aE[X]
\quad
证明:固定正数
a
a
a,定义随机变量
Y
a
Y_a
Ya,
Y
n
=
{
0
,
X
<
a
,
a
,
X
≥
a
.
Y_n = \begin{cases} 0, &\quad X \lt a, \\ a, &\quad X \ge a. \end{cases}
Yn={0,a,X<a,X≥a.可以看出
Y
n
≤
X
Y_n \le X
Yn≤X总成立,从而
E
[
Y
a
]
≤
E
[
X
]
E[Y_a] \le E[X]
E[Ya]≤E[X]将上式展开得到
E
[
Y
a
]
=
a
P
(
Y
a
=
a
)
=
a
P
(
X
≥
a
)
E[Y_a]=aP(Y_a=a)=aP(X \ge a)
E[Ya]=aP(Ya=a)=aP(X≥a)所以
a
P
(
X
≥
a
)
≤
E
[
X
]
aP(X \ge a) \le E[X]
aP(X≥a)≤E[X]
\quad
马尔可夫不等式的精度比较差。例如:
X
∼
U
[
0
,
4
]
X \sim U[0,4]
X∼U[0,4],易知
E
[
X
]
=
2
E[X]=2
E[X]=2。由马尔可夫不等式可得:
P
[
X
≥
2
]
≤
2
2
=
1
,
P
[
X
≥
3
]
≤
2
3
=
0.67
,
P
[
X
≥
4
]
≤
2
4
=
0.5
P[X \ge 2] \le \frac{2}{2} = 1, \quad P[X \ge 3] \le \frac{2}{3} = 0.67, \quad P[X \ge 4] \le \frac{2}{4} = 0.5
P[X≥2]≤22=1,P[X≥3]≤32=0.67,P[X≥4]≤42=0.5与真实概率比较
P
[
X
≥
2
]
=
0.5
,
P
[
X
≥
3
]
=
0.25
,
P
[
X
≥
4
]
=
0
P[X \ge 2] = 0.5, \quad P[X \ge 3] = 0.25, \quad P[X \ge 4] = 0
P[X≥2]=0.5,P[X≥3]=0.25,P[X≥4]=0
\quad
马尔可夫不等式给出的上界与真实概率相差非常远。需要注意的是这里的随机变量必须是非负值。
切比雪夫不等式
\quad 简单的说切比雪夫不等式就是指如果一个随机变量的方差非常小的话,那么该随机变量取远离均值 μ \mu μ的概率也非常小。那么该随机变量取远离期望 μ \mu μ的概率也非常小。与马尔可夫不等式不同的是切比雪夫不等式并不要求所涉及的随机变量非负。
切比雪夫不等式
\quad 设随机变量 X X X的均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2,则对任意 c ≥ 0 , c \ge 0, c≥0, P ( ∣ X − μ ∣ ≥ c ) ≤ σ 2 c 2 P(|X-\mu| \ge c) \le \frac{\sigma^2}{c^2} P(∣X−μ∣≥c)≤c2σ2
\quad
证明:考虑非负随机变量
(
X
−
μ
)
2
(X-\mu)^2
(X−μ)2。令
a
=
c
2
a=c^2
a=c2,使用马尔可夫不等式,可得
P
(
(
X
−
μ
)
2
≥
c
2
)
≥
E
[
(
X
−
μ
)
2
]
c
2
=
σ
2
c
2
P((X-\mu)^2 \ge c^2) \ge \frac{E[(X-\mu)^2]}{c^2}=\frac{\sigma^2}{c^2}
P((X−μ)2≥c2)≥c2E[(X−μ)2]=c2σ2注意事件
∣
X
−
μ
∣
2
≥
c
2
|X-\mu|^2 \ge c^2
∣X−μ∣2≥c2等价于事件
∣
X
−
μ
∣
≥
c
|X-\mu| \ge c
∣X−μ∣≥c,所以
P
(
∣
X
−
μ
∣
≥
c
)
=
P
(
∣
X
−
μ
∣
2
≥
c
2
)
≥
σ
2
c
2
P(|X-\mu| \ge c) = P(|X-\mu|^2 \ge c^2) \ge \frac{\sigma^2}{c^2}
P(∣X−μ∣≥c)=P(∣X−μ∣2≥c2)≥c2σ2
\quad
令
c
=
k
σ
c = k\sigma
c=kσ,其中
k
k
k是正数。切比雪夫不等式的另一个版本是:
P
(
∣
X
−
μ
∣
≥
k
σ
)
≤
σ
2
k
2
σ
2
=
1
k
2
P(|X-\mu| \ge k\sigma) \le \frac{\sigma^2}{k^2 \sigma^2} = \frac{1}{k^2}
P(∣X−μ∣≥kσ)≤k2σ2σ2=k21
上式是另外一个版本的切比雪夫不等式,它表示一个随机变量的取值偏离其期望
k
k
k倍个标准差的概率最多是
1
/
k
2
1/k^2
1/k2。
\quad
切比雪夫不等式比马尔可夫不等式更准确,这是因为它利用了
X
X
X的方差信息。当然一个随机变量的均值和方差也仅仅是粗略地描述了随机变量的性质,所以由切比雪夫不等式提供的上界与精确概率也可能不是非常接近。
弱大数定律
\quad 弱大数定律是指独立同分布的随机变量序列的样本均值,在大样本的情况下,以很大的概率与随机变量的均值非常接近。设 X 1 , X 2 , ⋯ , X_1,X_2,\cdots, X1,X2,⋯,公共分布的期望为 μ \mu μ,方差为 σ 2 \sigma^2 σ2。定义样本均值 M n = 1 n Σ i = 1 n X i M_n = \frac{1}{n}\Sigma^n_{i=1} X_i Mn=n1Σi=1nXi则 E [ M n ] = E [ X 1 ] + ⋯ + E [ X n ] n = n μ n = μ E[M_n]=\frac{E[X_1]+\cdots+E[X_n]}{n}=\frac{n\mu}{n}=\mu E[Mn]=nE[X1]+⋯+E[Xn]=nnμ=μ再运用独立性可得 v a r ( M n ) = v a r ( X 1 + ⋯ + X n ) n 2 = v a r ( X 1 ) + ⋯ + v a r ( X n ) n 2 = n σ 2 n 2 = σ 2 n var(M_n)=\frac{var(X_1+\cdots+X_n)}{n^2}=\frac{var(X_1)+\cdots+var(X_n)}{n^2}=\frac{n\sigma^2}{n^2}=\frac{\sigma^2}{n} var(Mn)=n2var(X1+⋯+Xn)=n2var(X1)+⋯+var(Xn)=n2nσ2=nσ2利用切比雪夫不等式可得 P ( ∣ M n − μ ∣ ≥ ϵ ) ≤ σ 2 n ϵ 2 , ϵ > 0 P(|M_n - \mu| \ge \epsilon) \le \frac{\sigma^2}{n \epsilon^2},\quad \epsilon \gt 0 P(∣Mn−μ∣≥ϵ)≤nϵ2σ2,ϵ>0对于任意固定的 ϵ > 0 \epsilon \gt 0 ϵ>0,上面的不等式的右边在 n → ∞ n \rightarrow \infty n→∞时趋于 0 0 0,于是就得到如下的弱大数定律。这里要提到的是:当 X i X_i Xi的方差无界时,弱大数定律仍然成立,但要更严格的证明。下面陈述的弱大数定律中,只需要一个假设: E [ X i ] E[X_i] E[Xi]是有限的。
弱大数定律
\quad 设 X 1 , X 2 , ⋯ X_1,X_2,\cdots X1,X2,⋯独立同分布,其公共分布的期望为 μ \mu μ,则对任意的 ϵ > 0 \epsilon \gt 0 ϵ>0,当 n → ∞ n \rightarrow \infty n→∞时, P ( ∣ M n − μ ∣ ≥ ϵ ) = P ( ∣ X 1 + ⋯ + X n n − μ ∣ ) → 0 P(|M_n-\mu| \ge \epsilon) = P\left (\left|\frac{X_1+\cdots+X_n}{n} -\mu \right| \right) \rightarrow 0 P(∣Mn−μ∣≥ϵ)=P(∣∣∣∣nX1+⋯+Xn−μ∣∣∣∣)→0
\quad 弱大数定律是指对于充分大的 n n n, M n M_n Mn的分布的大部分都集中在 μ \mu μ附近。设包含 μ \mu μ的一个区间为 [ μ − ϵ , μ + ϵ ] [\mu-\epsilon, \mu+\epsilon] [μ−ϵ,μ+ϵ],则 M n M_n Mn位于该区间的概率非常大。当 n → ∞ n \rightarrow \infty n→∞时,该概率趋近于 1 1 1。当 ϵ \epsilon ϵ非常小时,则需要更大的 n n n,使得 M n M_n Mn以很大的概率落在该区间内。
依概率收敛
\quad 弱大数定律可以表述为“ M n M_n Mn收敛于 μ \mu μ”。但是 M 1 , M 2 , ⋯ M_1,M_2,\cdots M1,M2,⋯是随机变量序列并不是数列,所以这里的收敛并不同于数列的收敛。两种定义比较如下:
数列的收敛
\quad 设 a 1 , a 2 , ⋯ a_1,a_2,\cdots a1,a2,⋯是一实数数列, a a a为一实数,如果对任意的 ϵ > 0 \epsilon \gt 0 ϵ>0,存在正整数 n 0 n_0 n0,使得对所有的 n ≥ n 0 n \ge n_0 n≥n0都有 ∣ a n − a ∣ ≤ ϵ |a_n-a| \le \epsilon ∣an−a∣≤ϵ则称数列 a n a_n an收敛于 a a a,记为: l i m n → ∞ a n = a lim_{n \rightarrow \infty} a_n = a limn→∞an=a
依概率收敛
\quad 设 Y 1 , Y 2 , ⋯ Y_1,Y_2,\cdots Y1,Y2,⋯是随机变量序列(不必相互独立), a a a为一实数,如果对任意的 ϵ > 0 \epsilon \gt 0 ϵ>0都有 l i m n → ∞ P ( ∣ Y n − a ∣ ≥ ϵ ) = 0 lim_{n \rightarrow \infty} \mathbb P(|Y_n-a| \ge \epsilon) = 0 limn→∞P(∣Yn−a∣≥ϵ)=0则称 Y n Y_n Yn依概率收敛于 a a a。
\quad
根据这个定义,弱大数定律就是说样本均值依概率收敛于真值
μ
\mu
μ。更一般地,利用切比雪夫不等式可以证明:如果所有的
Y
n
Y_n
Yn具有相同的期望,而方差
V
a
r
(
Y
n
)
\mathbf Var(Y_n)
Var(Yn)趋于
0
0
0,则
Y
n
Y_n
Yn依概率收敛于
μ
\mu
μ。
\quad
如果随机变量序列
Y
1
,
Y
2
,
⋯
Y_1,Y_2,\cdots
Y1,Y2,⋯有分布列或者概率密度函数,且依概率收敛于
a
a
a。则根据依概率收敛的定义,对充分大的
n
,
Y
n
n,Y_n
n,Yn的分布列或概率密度函数的大部分“质量”集中在
a
a
a的
ϵ
\epsilon
ϵ领域
[
a
−
ϵ
,
a
+
ϵ
]
[a-\epsilon,a+\epsilon]
[a−ϵ,a+ϵ]内。所以依概率收敛的定义也可以这样描述:对任意的
ϵ
>
0
\epsilon \gt 0
ϵ>0和
δ
>
0
\delta \gt 0
δ>0,存在
n
0
n_0
n0,使得对所有的
n
≥
n
0
n \ge n_0
n≥n0,都有
P
(
∣
Y
n
−
a
∣
≥
ϵ
)
≤
δ
\mathbb P(|Y_n-a| \ge \epsilon) \le \delta
P(∣Yn−a∣≥ϵ)≤δ下面称
ϵ
\epsilon
ϵ为精度,
δ
\delta
δ为置信水平。依概率收敛的定义有如下的形式:任意给定精度和置信水平,在
n
n
n充分大时
Y
n
Y_n
Yn等于
a
a
a。
\quad
这里需要注意的是
Y
n
Y_n
Yn依概率收敛于实数
a
a
a,并不能认为
E
[
Y
n
]
\mathbb E[Y_n]
E[Yn]也同样依概率收敛于实数
a
a
a。
中心极限定理
\quad
根据弱大数定律,样本均值
M
n
=
(
x
1
+
⋯
+
x
n
)
/
n
M_n=(x_1+\cdots+x_n)/n
Mn=(x1+⋯+xn)/n的分布随着
n
n
n的增大,越来越集中在真值
μ
\mu
μ的领域内。特别地,在我们的论证中,假定
X
i
X_i
Xi的方差为有限的时候,可以证明
M
n
M_n
Mn的方差趋于
0
0
0。另一方面,前
n
n
n项和
S
n
=
X
1
+
⋯
+
X
n
=
n
M
n
S_n=X_1+\cdots+X_n=nM_n
Sn=X1+⋯+Xn=nMn的方差趋于
∞
\infty
∞,所以
S
n
S_n
Sn的分布不可能收敛。换一个角度,我们考虑
S
n
S_n
Sn与其均值
n
μ
n\mu
nμ的偏差
S
n
−
n
μ
S_n-n\mu
Sn−nμ,然后乘以正比于
1
/
n
1/\sqrt{n}
1/n的刻度系数。乘以刻度系数的目的就是使新的随机变量具有固定的方差。中心极限定义指出这个新的随机变量的分布趋于标准正态分布。
\quad
具体地说,设
X
1
,
X
2
,
⋯
X_1,X_2,\cdots
X1,X2,⋯是独立同分布的随机变量序列,均值为
μ
\mu
μ,方差为
σ
2
\sigma^2
σ2。定义
Z
n
=
S
n
−
n
μ
n
σ
=
X
1
+
⋯
+
X
n
−
n
μ
n
σ
Z_n=\frac{S_n-n\mu}{\sqrt{n}\sigma}=\frac{X_1+\cdots+X_n-n\mu}{\sqrt{n}\sigma}
Zn=nσSn−nμ=nσX1+⋯+Xn−nμ经过简单技术可以得到
E
[
Z
n
]
=
E
[
X
1
+
⋯
+
X
n
−
n
μ
]
n
σ
=
0
\mathbb E[Z_n] = \frac{\mathbb E[X_1+\cdots+X_n-n\mu]}{\sqrt{n}\sigma}=0
E[Zn]=nσE[X1+⋯+Xn−nμ]=0
v
a
r
(
Z
n
)
=
v
a
r
(
X
1
+
⋯
+
X
n
)
n
σ
2
=
v
a
r
(
X
1
)
+
⋯
+
v
a
r
(
X
n
)
n
σ
2
=
n
σ
2
n
σ
2
=
1
var(Z_n)=\frac{var(X_1+\cdots+X_n)}{n\sigma^2}=\frac{var(X_1)+\cdots+var(X_n)}{n\sigma^2}=\frac{n\sigma^2}{n\sigma^2}=1
var(Zn)=nσ2var(X1+⋯+Xn)=nσ2var(X1)+⋯+var(Xn)=nσ2nσ2=1
中心极限定义
\quad 设 X 1 , X 2 , ⋯ X_1,X_2,\cdots X1,X2,⋯是独立同分布的随机变量序列,序列的每一项的均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2。记 Z n = X 1 + ⋯ + X n − n μ n σ Z_n=\frac{X_1+\cdots+X_n-n\mu}{\sqrt{n}\sigma} Zn=nσX1+⋯+Xn−nμ则 Z n Z_n Zn的分布函数的极限分布为标准正态分布函数 Φ ( x ) = 1 2 π ∫ ∞ x e − z 2 / 2 d z \Phi(x) = \frac{1}{\sqrt{2\pi}} \int^x_{\infty}e^{-z^2/2}dz Φ(x)=2π1∫∞xe−z2/2dz即 l i m n → ∞ P ( Z n ≤ x ) = Φ ( x ) 对 任 意 的 x 成 立 。 lim_{n \rightarrow \infty} \mathbb P(Z_n \le x) = \Phi(x)\quad 对任意的x成立。 limn→∞P(Zn≤x)=Φ(x)对任意的x成立。
\quad 中心极限定理是一个非常具有一般性的定理。对于定理的条件,除了序列为独立同分布的序列之外,还假设各项的均值和方差的有限性。此外,对 X i X_i Xi的分布再也没有其他的要求。 X i X_i Xi的分布可以是离散的、连续的或是混合的。在应用中中心极限定理不必考虑随机变量具体服从什么分布,避免了分布列和概率密度函数的繁琐计算。
基于中心极限定理的近似
\quad 中心极限定理允许人们可以将 Z n Z_n Zn的分布看成正态分布,从而可以计算与 Z n Z_n Zn的相关的随机变量的概率问题。因为正态分布的线性变换下仍然是正态分布,所以可以将 S n S_n Sn视为均值为 μ \mu μ,方差为 n σ 2 n\sigma^2 nσ2的正态随机变量。
基于中心极限定理的正态近似
\quad 令 S n = X 1 + ⋯ + X n S_n=X_1+\cdots+X_n Sn=X1+⋯+Xn,其中 X 1 , X 2 , ⋯ X_1,X_2,\cdots X1,X2,⋯是独立同分布的随机变量序列,均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2。当 n n n充分大时,概率 P ( S n ≤ c ) \mathbb P(S_n \le c) P(Sn≤c)可以通过将 S n S_n Sn视为正太随机变量来近似计算。步骤如下:
\quad (1) 计算 S n S_n Sn的均值 n μ n\mu nμ和方差 n σ 2 n\sigma^2 nσ2;
\quad (2) 计算归一化后的值 z = ( c − n μ ) / ( n σ ) z = (c-n\mu)/(\sqrt{n}\sigma) z=(c−nμ)/(nσ);
\quad (3) 计算近似值
P ( S n ≤ c ) ≈ Φ ( z ) \mathbb P(S_n \le c) \approx \Phi(z) P(Sn≤c)≈Φ(z)其中 Φ ( z ) 可 以 从 标 准 正 态 分 布 表 查 得 。 \Phi(z)可以从标准正态分布表查得。 Φ(z)可以从标准正态分布表查得。
\quad 当 n → ∞ n \rightarrow \infty n→∞时,正态近似就会越精确,但是在实践中,样本容量 n n n时固定的、有限的。所以需知道 n n n多大时正态近似的结果是可信的。可惜的是,没有简单的准则来判断。这要依赖于 X i X_i Xi的分布是否与正态分布接近,还依赖于 X i X_i Xi的分布是否对称。如果 X i X_i Xi是均匀分布,则 S n S_n Sn的分布与正态分布才接近。如果是指数分布,那么 n n n必须要充分大, S n S_n Sn才与正态分布接近。进一步,使用正态近似计算 P ( S n ≤ c ) \mathbb P(S_n \le c) P(Sn≤c)的时候,其近似的程度与 c c c的值有关。一般来说,如果 c c c在 S n S_n Sn均值的附近,其精度会更高一些。
二项分布的隶莫佛-拉普拉斯近似(The De Moivre-Laplace Theorem)
\quad
服从参数为
n
n
n和
p
p
p的二项分布的随机变量
S
n
S_n
Sn可以看成
n
n
n个服从参数为
p
p
p的伯努利分布的独立随机变量
X
1
,
⋯
,
X
n
X_1,\cdots,X_n
X1,⋯,Xn的和:
S
n
=
X
1
+
⋯
+
X
n
S_n=X_1+\cdots+X_n
Sn=X1+⋯+Xn显然
μ
=
E
[
X
i
]
=
p
,
σ
=
v
a
r
(
X
i
)
=
p
(
1
−
p
)
\mu=\mathbb E[X_i]=p,\quad \sigma=\sqrt{var(X_i)}=\sqrt{p(1-p)}
μ=E[Xi]=p,σ=var(Xi)=p(1−p)
\quad
现在使用中心极限定理去近似事件
{
k
≤
S
n
≤
l
}
\{ k \le S_n \le l \}
{k≤Sn≤l}的概率,其中
k
k
k和
l
l
l诗给定的整数。实际上,运用事件的等价性
k
≤
S
n
≤
l
⟺
k
−
n
p
n
p
(
1
−
p
)
≤
S
n
−
n
p
n
p
(
1
−
p
)
≤
l
−
n
p
n
p
(
1
−
p
)
k \le S_n \le l \Longleftrightarrow \frac{k -np}{\sqrt{np(1-p)}} \le \frac{S_n -np}{\sqrt{np(1-p)}} \le \frac{l -np}{\sqrt{np(1-p)}}
k≤Sn≤l⟺np(1−p)k−np≤np(1−p)Sn−np≤np(1−p)l−np将事件表达成标准化随机变量的形式。利用中心极限定理可知
S
n
−
n
p
n
p
(
1
−
p
)
\frac{S_n -np}{\sqrt{np(1-p)}}
np(1−p)Sn−np近似服从标准正态分布,所以
P
(
k
≤
S
n
≤
l
)
=
P
(
k
−
n
p
n
p
(
1
−
p
)
≤
S
n
−
n
p
n
p
(
1
−
p
)
≤
l
−
n
p
n
p
(
1
−
p
)
)
≈
Φ
(
l
−
n
p
n
p
(
1
−
p
)
)
−
Φ
(
k
−
n
p
n
p
(
1
−
p
)
)
\mathbb P(k \le S_n \le l) = \mathbb P \left ( \frac{k -np}{\sqrt{np(1-p)}} \le \frac{S_n -np}{\sqrt{np(1-p)}} \le \frac{l -np}{\sqrt{np(1-p)}} \right ) \\ \approx \Phi \left( \frac{l -np}{\sqrt{np(1-p)}} \right) - \Phi \left( \frac{k -np}{\sqrt{np(1-p)}} \right)
P(k≤Sn≤l)=P(np(1−p)k−np≤np(1−p)Sn−np≤np(1−p)l−np)≈Φ(np(1−p)l−np)−Φ(np(1−p)k−np)
\quad
上述近似方法等价于将
S
n
S_n
Sn看成均值为
n
p
np
np方差为
n
p
(
1
−
p
)
np(1-p)
np(1−p)的正态分布。如果将
k
,
l
k,l
k,l替换成
k
−
1
2
,
l
+
1
2
k-\frac{1}{2},l+\frac{1}{2}
k−21,l+21那么结果会更准备。这个主要是为了防止
l
=
k
l=k
l=k时的状况。
二项分布的隶莫佛-拉普拉斯近似
\quad 设 S n S_n Sn是服从参数为 n n n和 p p p的二项分布, n n n充分大, k k k和 l l l是非负整数,则 P ( k ≤ S n ≤ l ) ≈ Φ ( l + 1 2 − n p n p ( 1 − p ) ) − Φ ( k − 1 2 − n p n p ( 1 − p ) ) \mathbb P(k \le S_n \le l) \approx \Phi \left( \frac{l + \frac{1}{2} -np}{\sqrt{np(1-p)}} \right) - \Phi \left( \frac{k - \frac{1}{2} -np}{\sqrt{np(1-p)}} \right) P(k≤Sn≤l)≈Φ(np(1−p)l+21−np)−Φ(np(1−p)k−21−np)
强大数定律
\quad 强大数定律与弱大数定律一样,都是指样本均值收敛于真值 μ \mu μ。但是,它们强调的是不同的收敛类别。
强大数定律
\quad 设 X 1 , X 2 , ⋯ X_1,X_2,\cdots X1,X2,⋯是均值为 μ \mu μ的独立同分布随机变量序列,则样本均值 M n = ( X 1 + X 2 + ⋯ + X n ) / n M_n=(X_1+X_2+\cdots+X_n)/n Mn=(X1+X2+⋯+Xn)/n**以概率 1 1 1**收敛于 μ \mu μ,即 P ( l i m n → ∞ X 1 + X 2 + ⋯ + X n n = μ ) = 1 \mathbb P \left (lim_{n \rightarrow \infty} \frac{X_1+X_2+\cdots+X_n}{n} = \mu \right) = 1 P(limn→∞nX1+X2+⋯+Xn=μ)=1
\quad 强大数定律与弱大数定律的区别是细微的。弱大数定律是指 M n M_n Mn有显著性偏离 μ \mu μ的事件的概率 P ( ∣ M n − μ ∣ ≥ ϵ ) \mathbb P(|M_n - \mu| \ge \epsilon) P(∣Mn−μ∣≥ϵ)在 n → ∞ n \rightarrow \infty n→∞时趋近于 0 0 0。但是对任意有限的 n n n,这个概率可以是正的。所以可以想象的是,在 M n M_n Mn这个无穷序列中,常常有 M n M_n Mn显著偏离 μ \mu μ。弱大数定律不能提供到底有多少会显著性偏离 μ \mu μ,但是强大数定律却可以。根据强大数定律, M n M_n Mn以概率 1 1 1收敛于 μ \mu μ。这意味着,对任意的 ϵ > 0 \epsilon \gt 0 ϵ>0,偏离 ∣ M n − μ ∣ |M_n - \mu| ∣Mn−μ∣超过 ϵ \epsilon ϵ的只能发生有限次。
以概率 1 1 1收敛
\quad 强大数定律中的收敛与弱大数定律中的收敛是两个不同的概念。现在给出以概率 1 1 1收敛的定义。
以概率 1 1 1收敛
\quad 设 Y 1 , Y 2 , ⋯ Y_1,Y_2,\cdots Y1,Y2,⋯是某种概率模型下的随机变量序列(不必独立), c c c是某个实数,如果 P ( l i m n → ∞ Y n = c ) = 1 \mathbb P(lim_{n \rightarrow \infty} Y_n = c) = 1 P(limn→∞Yn=c)=1则称 Y n Y_n Yn以概率 1 1 1(或几乎处处)收敛于 c c c。
\quad 这种收敛也是在由无穷数列组成的样本空间中建立的:若某随机变量序列以概率 1 1 1收敛于常数 c c c,则在样本空间中,全部的概率集中在满足极限等于 c c c的无穷数列的子集上。但是这并不意味其他的无穷数列是不可能的,只是它们是非常不可能的,即它们的概率为 0 0 0。