大数定理和中心极限定理
大数定理 large number theorem
弱大数定律(辛钦大数定律):
对于任意的
ϵ
\epsilon
ϵ,
lim
n
→
∞
P
{
∣
1
n
∑
i
=
1
n
X
i
−
μ
∣
<
ϵ
}
=
1
\lim_{n\rarr \infin}P\{|\frac 1 n \sum_{i=1}^{n}X_i-\mu|<\epsilon\}=1
n→∞limP{∣n1i=1∑nXi−μ∣<ϵ}=1
成立. 其中
X
1
,
X
2
,
.
.
.
,
X
n
X_1, X_2, ..., X_n
X1,X2,...,Xn都服从同一分布, 且相互独立,
μ
=
E
(
X
i
)
\mu = E(X_i)
μ=E(Xi).
推导用到了Chebyshev不等式. 对于一个随机变量
X
X
X, 若它的
E
(
X
)
=
μ
,
D
(
X
)
=
σ
2
E(X)=\mu, D(X)=\sigma^2
E(X)=μ,D(X)=σ2, 那么对于任意的正数
ϵ
\epsilon
ϵ, 都有:
P
{
∣
X
−
μ
∣
≥
ϵ
}
≤
σ
2
ϵ
2
P\{|X-\mu|\ge\epsilon\}\le \frac {\sigma^2} {\epsilon^2}
P{∣X−μ∣≥ϵ}≤ϵ2σ2
推导:
设
X
X
X为连续随机变量,
f
(
x
)
f(x)
f(x)为其概率密度函数, 那么:
P
{
∣
X
−
μ
∣
≥
ϵ
}
=
∫
∣
X
−
μ
∣
>
ϵ
f
(
x
)
d
x
≤
∫
∣
X
−
μ
∣
>
ϵ
(
X
−
μ
)
2
ϵ
2
f
(
x
)
d
x
≤
∫
−
∞
+
∞
(
X
−
μ
)
2
ϵ
2
f
(
x
)
d
x
=
1
ϵ
2
∫
−
∞
+
∞
(
X
−
μ
)
2
f
(
x
)
d
x
=
σ
2
ϵ
2
P\{|X-\mu| \ge \epsilon\} = \int_{|X-\mu| > \epsilon} f(x)dx \le \int_{|X-\mu| > \epsilon} \frac {(X-\mu)^2} {\epsilon^2} f(x)dx \le \int_{-\infty}^{+\infty} \frac {(X-\mu)^2} {\epsilon^2} f(x)dx = \frac {1}{\epsilon^2} \int_{-\infty}^{+\infty} (X-\mu)^2 f(x)dx = \frac {\sigma^2}{\epsilon^2}
P{∣X−μ∣≥ϵ}=∫∣X−μ∣>ϵf(x)dx≤∫∣X−μ∣>ϵϵ2(X−μ)2f(x)dx≤∫−∞+∞ϵ2(X−μ)2f(x)dx=ϵ21∫−∞+∞(X−μ)2f(x)dx=ϵ2σ2
上式也可写成下式:
P
{
∣
X
−
μ
∣
<
ϵ
}
≥
1
−
σ
2
ϵ
2
P\{|X-\mu|<\epsilon\}\ge 1-\frac {\sigma^2} {\epsilon^2}
P{∣X−μ∣<ϵ}≥1−ϵ2σ2
使用Chebyshev不等式推导弱大数定理, 我们知道:
E
{
1
n
∑
i
=
1
n
X
i
}
=
1
n
∑
i
=
1
n
E
{
X
i
}
=
1
n
⋅
n
μ
=
μ
E\{\frac{1}{n} \sum_{i=1}^{n}X_i\} = \frac{1}{n} \sum_{i=1}^{n}E\{X_i\}= \frac{1}{n}\cdot n\mu = \mu
E{n1i=1∑nXi}=n1i=1∑nE{Xi}=n1⋅nμ=μ
和
D
{
1
n
∑
i
=
1
n
X
i
}
=
1
n
2
∑
i
=
1
n
D
{
X
i
}
=
1
n
2
⋅
n
σ
2
=
σ
2
n
D\{\frac{1}{n} \sum_{i=1}^{n}X_i\} = \frac{1}{n^2} \sum_{i=1}^{n}D\{X_i\} = \frac{1}{n^2}\cdot n\sigma^2 = \frac{\sigma^2}{n}
D{n1i=1∑nXi}=n21i=1∑nD{Xi}=n21⋅nσ2=nσ2
根据Chebyshev不等式, 我们有:
1
≥
p
{
∣
1
n
∑
i
=
1
n
X
i
−
μ
∣
≤
ϵ
}
≥
1
−
σ
2
n
ϵ
2
1 \ge p\{|\frac{1}{n} \sum_{i=1}^{n}X_i-\mu|\le\epsilon\} \ge 1- \frac{\sigma^2}{n\epsilon^2}
1≥p{∣n1i=1∑nXi−μ∣≤ϵ}≥1−nϵ2σ2
当n趋于无穷大时, 也就有:
lim
n
→
∞
P
{
∣
1
n
∑
i
=
1
n
X
i
−
μ
∣
<
ϵ
}
=
1
\lim_{n\rarr \infin}P\{|\frac 1 n \sum_{i=1}^{n}X_i-\mu|<\epsilon\}=1
n→∞limP{∣n1i=1∑nXi−μ∣<ϵ}=1
推论:
伯努利大数定律:
在独立重复n次试验中,
f
A
f_A
fA是事件A发生的次数, 对于任意的
ϵ
\epsilon
ϵ,
lim
n
→
∞
P
{
∣
f
A
n
−
p
∣
<
ϵ
}
=
1
\lim_{n\rarr \infin}P\{|\frac {f_A} n -p|<\epsilon\}=1
n→∞limP{∣nfA−p∣<ϵ}=1
这是因为
f
A
∼
b
(
n
,
p
)
f_A\sim b(n, p)
fA∼b(n,p), 即二项分布, 因此有:
f
A
=
X
1
+
X
2
+
.
.
.
+
X
n
f_A = X_1+X_2+...+X_n
fA=X1+X2+...+Xn
而
X
i
X_i
Xi服从以
p
p
p为参数的
(
0
−
1
)
(0-1)
(0−1)分布, 因此
E
(
x
i
)
=
p
E(x_i)=p
E(xi)=p, 因此由弱大数定理就可以推出该定律.
这个式子就解释了为什么当实验次数很大时, 频率会稳定收敛于概率.
中心极限定理 central limit theorem
大数定理说明的是大量同分布的随机变量的均值是趋于它们的期望的. 中心极限定理则说明的是它们的均值服从标准正态分布.
独立同分布的中心极限定理:
设随机变量
X
1
,
X
2
,
.
.
.
,
X
n
X_1, X_2, ..., X_n
X1,X2,...,Xn都服从同一分布, 且相互独立,
E
(
X
i
)
=
μ
,
D
(
X
i
)
=
σ
2
E(X_i)=\mu, D(X_i)=\sigma^2
E(Xi)=μ,D(Xi)=σ2, 那么当n很大时, 近似有:
X
ˉ
−
μ
σ
/
n
∼
N
(
0
,
1
)
\frac {\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)
σ/nXˉ−μ∼N(0,1)
或者
∑
(
X
i
)
−
n
μ
n
σ
∼
N
(
0
,
1
)
(1)
\frac {\sum(X_i)-n\mu}{\sqrt{n}\sigma}\sim N(0,1)\tag{1}
nσ∑(Xi)−nμ∼N(0,1)(1)
或者
X
ˉ
∼
N
(
μ
,
σ
2
n
)
\bar{X} \sim N(\mu, \frac {\sigma^2}{n})
Xˉ∼N(μ,nσ2)
正态分布是二项分布的极限分布:
设
η
n
\eta_n
ηn服从参数为
b
(
n
,
p
)
b(n, p)
b(n,p)的二项分布, 则有:
η
n
−
n
p
n
p
(
1
−
p
)
∼
N
(
0
,
1
)
\frac {\eta_n-np} {\sqrt{np(1-p)}} \sim N(0, 1)
np(1−p)ηn−np∼N(0,1)
该式为独立同分布的中心极限定理的特殊情况, 随机变量
η
n
\eta_n
ηn可以分解为n个相互独立的, 服从同一(0-1)分布. 即有:
η
n
=
∑
i
=
1
n
(
X
i
)
\eta_n =\sum_{i=1}^{n}(X_i)
ηn=i=1∑n(Xi)
X
i
X_i
Xi的分布律为:
P
(
X
i
=
k
)
=
p
k
(
1
−
p
)
(
1
−
k
)
,
k
=
0
,
1
P(X_i=k)=p^k(1-p)^{(1-k)}, k= 0, 1
P(Xi=k)=pk(1−p)(1−k),k=0,1
因此有:
E
(
X
i
)
=
p
,
D
(
X
i
)
=
p
(
1
−
p
)
E(X_i) = p, D(X_i) = p(1-p)
E(Xi)=p,D(Xi)=p(1−p)
带入式(1)即可.