物理意义
大数定理是由概率的统计定义“频率收敛于概率”引申而来,它“说明”了一些随机事件的均值的长期稳定性。为了描述这一点,我们把频率通过一些随机变量的和表示出来。设做了
n
n
n次独立实验,每次观察某事件
A
A
A是否发生 ,则在这
n
n
n次实验中事件
A
A
A一共出现了
X
1
+
⋅
⋅
⋅
+
X
n
X_1+···+X_n
X1+⋅⋅⋅+Xn次,而频率为
p
n
=
(
X
1
+
⋅
⋅
⋅
+
X
n
)
/
n
=
X
‾
n
(1)
p_n=(X_1+···+X_n)/n=\overline{X}_n \tag{1}
pn=(X1+⋅⋅⋅+Xn)/n=Xn(1)若
P
(
A
)
=
p
P(A)=p
P(A)=p,则“频率趋于概率”表示在某种意义上,当
n
n
n很大时
p
n
p_n
pn接近
p
p
p。但
p
p
p就是
X
i
X_i
Xi的期望值,故也可以写成:当
n
n
n很大时
X
‾
n
\overline{X}_n
Xn接近与
X
i
X_i
Xi的期望值。
按上述表述,问题就可以不必局限于
X
i
X_i
Xi只取0, 1两个值的情况,事实也是如此,这就是较一般情况下得大数定理。“大数”的意思,就是指涉及大量数目的观察值
X
i
X_i
Xi,它表明大数定理中指出的现象,只有在大量次数的实验和观察之下才能成立。例如一所大学可能包含上万名学生,如果我们随意观察一个学生的身高
X
1
X_1
X1,则
X
1
X_1
X1与全校学生的平均身高
a
a
a可能相去甚远。如果我们观察10个学生的身高取平均,则它有更大的机会与
a
a
a更接近些。如观察100个,则其平均又能更与
a
a
a接近些。再比如抛掷一颗均匀的6面骰子,1,2,3,4,5,6应等概率出现,所以每次扔出骰子后,出现的期望值是
1
+
2
+
3
+
4
+
5
+
6
6
=
3.5
\frac{1+2+3+4+5+6}{6}=3.5
61+2+3+4+5+6=3.5,基于大数定理,如果多次抛掷骰子,随着抛掷的次数增多,平均值(样本平均值)应该接近3.5。
下面给出投掷单个骰子的过程来展示大数定理。
代码如下:
clear all;
clf;
clc;
% Specify how many trials you want to run:
num_trials = 1000;
% Now grab all the dice rolls:
trials = randi(6, [1 num_trials]);
% Plot the results:
figure(1);
% Cumulative sum of the trial results divided by the index gives the average:
plot(cumsum(trials)./(1:num_trials), 'r-');
% Let's put a reference line at 3.5 just for fun (make the color a darker green as well):
hold on;
plot([1 num_trials], [3.5 3.5], 'color', [0 0.5 0]);
% Make it look pretty:
title('average dice value against number of rolls');
xlabel('trials');
ylabel('mean value');
legend('average', 'y=3.5');
axis([0 num_trials 1 6]);
定义
设
X
1
,
X
2
,
⋅
⋅
⋅
X_1,X_2,···
X1,X2,⋅⋅⋅是相互独立,服从同一分布的随机变量序列,且具有数学期望
E
(
X
k
)
=
μ
(
k
=
1
,
2
,
⋅
⋅
⋅
)
E(X_k)=\mu(k=1,2,···)
E(Xk)=μ(k=1,2,⋅⋅⋅).作前
n
n
n个变量的算数平均
1
n
∑
k
=
1
n
X
k
\frac{1}{n} \sum_{k=1}^{n}{X_k}
n1∑k=1nXk,则对于任意
ε
>
0
\varepsilon>0
ε>0,有
lim
n
→
∞
P
{
∣
1
n
∑
k
=
1
n
X
k
−
μ
∣
<
ε
}
=
1
(1)
{\lim_{n \to \infty}}P\{|\frac{1}{n}\sum_{k=1}^{n}{X_k-\mu}|<\varepsilon\}=1\tag{1}
n→∞limP{∣n1k=1∑nXk−μ∣<ε}=1(1)
证明
参考前期文章:
我们在随机变量的方差
D
(
X
k
)
=
σ
2
(
k
=
1
,
2
,
⋅
⋅
⋅
)
D(X_k)=\sigma^2(k=1,2,···)
D(Xk)=σ2(k=1,2,⋅⋅⋅)存在,证明上述结果,由期望、方差和切比雪夫不等式可知
E
(
1
n
∑
k
=
1
n
X
k
)
=
1
n
∑
k
=
1
n
E
(
X
n
)
=
1
n
(
n
μ
)
=
μ
E(\frac{1}{n}\sum_{k=1}^{n}{X_k})=\frac{1}{n}\sum_{k=1}^{n}{E(X_n)}=\frac{1}{n}(n\mu)=\mu
E(n1k=1∑nXk)=n1k=1∑nE(Xn)=n1(nμ)=μ
又由独立性得
D
(
1
n
∑
k
=
1
n
X
k
)
=
1
n
2
∑
k
=
1
n
E
(
X
n
)
=
1
n
2
(
n
σ
2
)
=
σ
2
n
D(\frac{1}{n}\sum_{k=1}^{n}{X_k})=\frac{1}{n^2}\sum_{k=1}^{n}{E(X_n)}=\frac{1}{n^2}(n\sigma^2)=\frac{\sigma^2}{n}
D(n1k=1∑nXk)=n21k=1∑nE(Xn)=n21(nσ2)=nσ2
由切比雪夫不等式可得
1
≥
P
{
∣
1
n
∑
k
=
1
n
X
k
−
μ
∣
<
ε
}
≥
1
−
σ
2
/
n
ε
2
1\ge P\{|\frac{1}{n}\sum_{k=1}^{n}{X_k-\mu}| < \varepsilon\} \ge 1-\frac{\sigma^2/n}{\varepsilon^2}
1≥P{∣n1k=1∑nXk−μ∣<ε}≥1−ε2σ2/n
在上式中令
n
→
∞
n\rightarrow\infty
n→∞,即得
lim
n
→
∞
P
{
∣
1
n
∑
k
=
1
n
X
k
−
μ
∣
<
ε
}
=
1
{\lim_{n \to \infty}}P\{|\frac{1}{n}\sum_{k=1}^{n}{X_k-\mu}|<\varepsilon\}=1
n→∞limP{∣n1k=1∑nXk−μ∣<ε}=1
P { ∣ 1 n ∑ k = 1 n X k − μ ∣ < ε } P\{|\frac{1}{n}\sum_{k=1}^{n}{X_k-\mu}|<\varepsilon\} P{∣n1∑k=1nXk−μ∣<ε}是一个随机事件。等式(1)表明,当 n → ∞ n\rightarrow\infty n→∞时这个事件的概率趋于1.即对于任意正数 ε \varepsilon ε,当 n n n充分大时,不等式 ∣ 1 n ∑ k = 1 n X k − μ ∣ < ε |\frac{1}{n}\sum_{k=1}^{n}{X_k-\mu}|<\varepsilon ∣n1∑k=1nXk−μ∣<ε成立的概率很大。通俗地说,辛钦大数定理是说,对于独立同分布且具有均值 μ \mu μ的随机变量 X 1 , ⋅ ⋅ ⋅ , X n X_1,···,X_n X1,⋅⋅⋅,Xn,当 n n n很大时它们的算数平均 1 n ∑ k = 1 n X k \frac{1}{n}\sum_{k=1}^{n}{X_k} n1∑k=1nXk很可能接近于 μ \mu μ.
可参考前期文章:
由前期文章辛钦大数定理又可以叙述为
弱大数定理(辛钦大数定理) 设随机变量
X
1
,
X
2
,
⋅
⋅
⋅
X_1,X_2,···
X1,X2,⋅⋅⋅相互独立,服从同一分布且具有数学期望
E
(
X
k
)
=
μ
(
k
=
1
,
2
,
⋅
⋅
⋅
)
E(X_k)=\mu(k=1,2,···)
E(Xk)=μ(k=1,2,⋅⋅⋅).则序列
X
‾
=
1
n
∑
k
=
1
n
X
k
\overline{X}=\frac{1}{n} \sum_{k=1}^{n}{X_k}
X=n1∑k=1nXk依概率收敛于
μ
\mu
μ,即
X
‾
⟶
P
μ
.
\overline{X}\stackrel{P}{\longrightarrow}\mu.
X⟶Pμ.
更多内容请关注公众号:Herbie
参考文献
[1] 茆诗松, 程依明, 濮晓龙. 概率论与数理统计教程(第二版)[M]. 高等教育出版社, 2019.
[2] 盛骤, 谢式千, 潘承毅. 概率论与数理统计[M]. 高等教育出版社, 2010.
[3] https://zh.wikipedia.org/wiki/%E5%A4%A7%E6%95%B8%E6%B3%95%E5%89%87