一、 背景
随着试验大量重复的进行,一个随机事件出现的频率在某个固定的数的附近摆动,这就是所谓的“频率稳定性”。数学上用中心极限定理和大数定律来描述在一定条件下的大量重复实验。
二、定义
2.1 大数定律定义
若
ξ
1
,
ξ
2
,
⋯
,
ξ
n
,
⋯
\xi_1, \xi_2, \cdots,\xi_n, \cdots
ξ1,ξ2,⋯,ξn,⋯是随机变量序列,令
η
n
=
ξ
1
+
ξ
2
+
⋯
+
ξ
n
n
(1)
\eta_n=\frac{\xi_1+\xi_2+\cdots+\xi_n}{n}\tag1
ηn=nξ1+ξ2+⋯+ξn(1)
如果存在这样的一个常数序列
a
1
,
a
2
,
⋯
,
a
n
,
⋯
a_1, a_2, \cdots, a_n, \cdots
a1,a2,⋯,an,⋯,对任意的
ε
>
0
\varepsilon\gt0
ε>0,恒有
lim
n
→
∞
P
{
∣
η
n
−
a
n
∣
<
ε
}
=
1
(2)
\lim_{n\to\infty}P\{|\eta_n-a_n|\lt\varepsilon\}=1\tag2
n→∞limP{∣ηn−an∣<ε}=1(2)
则称序列
{
ξ
n
}
\{\xi_n\}
{ξn}服从大数定律。
2.2 中心极限定理定义
中心极限定理是说: 样本的平均值约等于总体的平均值。
不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。
这里的整体平均值是指数学期望
假设有独立随机变量序列
ξ
1
,
ξ
2
,
⋯
,
ξ
n
,
⋯
\xi_1, \xi_2, \cdots,\xi_n, \cdots
ξ1,ξ2,⋯,ξn,⋯,
E
ξ
i
E\xi_i
Eξi和
D
ξ
i
D\xi_i
Dξi存在,令
ζ
n
=
∑
i
=
1
n
ξ
i
−
∑
i
=
1
n
E
ξ
i
∑
i
=
1
n
D
ξ
i
(3)
\zeta_n=\frac{\sum\limits_{i=1}^n\xi_i-\sum\limits_{i=1}^nE\xi_i}{\sqrt{\sum\limits_{i=1}^nD\xi_i}}\tag3
ζn=i=1∑nDξii=1∑nξi−i=1∑nEξi(3)
如果
lim
n
→
∞
P
{
ζ
n
<
x
}
=
1
2
π
∫
−
∞
x
e
−
t
2
/
2
d
t
(4)
\lim_{n\to\infty}P\{\zeta_n\lt x\}=\frac{1}{2\pi}\int_{-\infty}^{x}e^{-t^2/2}\,dt\tag4
n→∞limP{ζn<x}=2π1∫−∞xe−t2/2dt(4)
那么称序列
{
ξ
n
}
\{\xi_n\}
{ξn}服从中心极限定理。即极限分布是标准正态分布
N
(
0
,
1
)
N(0,1)
N(0,1)。
三、特例
3.1 辛钦大数定律
设 ξ 1 , ξ 2 , ⋯ , ξ n , ⋯ \xi_1, \xi_2, \cdots, \xi_n,\cdots ξ1,ξ2,⋯,ξn,⋯是相互独立的随机变量序列,它们服从相同的分布,且具有有限的数学期望 a = E ξ a=E\xi a=Eξ,则对任意的 ε > 0 \varepsilon\gt0 ε>0,有 lim n → ∞ P { ∣ 1 n ∑ i = 1 n ξ i − a ∣ < ε } = 1 (5) \lim_{n\to\infty}P\{|\frac{1}{n}\sum\limits_{i=1}^n\xi_i-a|\lt\varepsilon\}=1\tag5 n→∞limP{∣n1i=1∑nξi−a∣<ε}=1(5)
3.2 伯努利大数定律
设 μ n \mu_n μn是 n n n次伯努利试验中事件 A A A出现的次数,而 p p p是事件 A A A在每次试验中出现的概率,则对任意的 ε > 0 \varepsilon\gt0 ε>0,都有 lim n → ∞ P { ∣ μ n n − p ∣ < ε } = 1 (6) \lim_{n\to\infty}P\{|\frac{\mu_n}{n}-p|\lt\varepsilon\}=1\tag6 n→∞limP{∣nμn−p∣<ε}=1(6)
直观来看就是,当 n n n足够大时,频率 μ n n \frac{\mu_n}{n} nμn与概率 p p p有较大偏差的概率很小,那么我们便可以通过做试验确定某事件发生的频率并把它作为相应概率的估计,这类方法称为参数估计。参数估计的重要理论基础之一就是大数定律。
3.3 棣莫弗-拉普拉斯极限定理
大数定律只断言了当 n → ∞ n\to\infty n→∞时, μ n n \frac{\mu_n}{n} nμn接近于 p p p,棣莫弗-拉普拉斯极限定理则给出 μ n \mu_n μn的渐进分布的更精确的描述。
设
μ
n
\mu_n
μn是
n
n
n次伯努利试验中事件
A
A
A出现的次数,根据上面的伯努利大数定律,可以知道,随着
n
n
n的增大,
μ
n
n
\frac{\mu_n}{n}
nμn会趋于稳定。为了更好的研究
μ
n
\mu_n
μn的极限行为,可以讨论它的分布
P
{
μ
n
<
x
}
P\{\mu_n\lt x\}
P{μn<x},由于
E
μ
n
=
n
p
,
D
μ
n
=
n
p
q
E\mu_n=np, D\mu_n=npq
Eμn=np,Dμn=npq,所以对于固定的
x
x
x讨论
P
{
μ
n
<
x
}
P\{\mu_n\lt x\}
P{μn<x}的极限不会有多大意义,因为它将趋于
0
0
0,所以通常改为研究“标准化”的随机变量
ζ
n
=
μ
n
−
n
p
n
p
q
(7)
\zeta_n=\frac{\mu_n-np}{\sqrt{npq}}\tag7
ζn=npqμn−np(7)的分布函数
P
{
ζ
n
<
x
}
P\{\zeta_n\lt x\}
P{ζn<x}的极限行为。而棣莫弗-拉普拉斯极限定理就说明了它的极限分布是正态分布,即
lim
n
→
∞
P
{
ζ
n
<
x
}
=
1
2
π
∫
−
∞
x
e
−
t
2
/
2
d
t
(8)
\lim_{n\to\infty}P\{\zeta_n\lt x\}=\frac{1}{2\pi}\int_{-\infty}^{x}e^{-t^2/2}\,dt\tag8
n→∞limP{ζn<x}=2π1∫−∞xe−t2/2dt(8)
从而可以得到
μ
n
\mu_n
μn的渐进分布为
N
(
n
p
,
n
p
q
)
N(np, npq)
N(np,npq)