弱大数定理的意义与证明

HERBIER

已于 2022-06-23 00:01:43 修改

阅读量2.9k

点赞数 1

分类专栏：概率论文章标签：概率论机器学习算法

于 2021-12-14 17:57:53 首次发布

本文链接：https://blog.csdn.net/m0_63954365/article/details/121893489

版权

概率论专栏收录该内容

4 篇文章

订阅专栏

本文详细介绍了大数定律的物理意义，即随机事件的均值在大量试验下趋于稳定，并通过实例展示了这一现象。定义部分阐述了大数定律的数学表达，指出在一定条件下，独立同分布随机变量序列的算术平均值依概率收敛于期望值。文章还提供了基于切比雪夫不等式的证明，并引用了相关参考文献。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

物理意义

大数定理是由概率的统计定义“频率收敛于概率”引申而来，它“说明”了一些随机事件的均值的长期稳定性。为了描述这一点，我们把频率通过一些随机变量的和表示出来。设做了 $n$ 次独立实验，每次观察某事件 $A$ 是否发生，则在这 $n$ 次实验中事件 $A$ 一共出现了 $X_1+···+X_n$ 次，而频率为 $p_n=(X_1+···+X_n)/n=\overline{X}_n \tag{1}$ 若 $P (A) = p$ ，则“频率趋于概率”表示在某种意义上，当 $n$ 很大时 $p_n$ 接近 $p$ 。但 $p$ 就是 $X_i$ 的期望值，故也可以写成：当 $n$ 很大时 $\overline{X}_n$ 接近与 $X_i$ 的期望值。
按上述表述，问题就可以不必局限于 $X_i$ 只取0, 1两个值的情况，事实也是如此，这就是较一般情况下得大数定理。“大数”的意思，就是指涉及大量数目的观察值 $X_i$ ，它表明大数定理中指出的现象，只有在大量次数的实验和观察之下才能成立。例如一所大学可能包含上万名学生，如果我们随意观察一个学生的身高 $X_1$ ，则 $X_1$ 与全校学生的平均身高 $a$ 可能相去甚远。如果我们观察10个学生的身高取平均，则它有更大的机会与 $a$ 更接近些。如观察100个，则其平均又能更与 $a$ 接近些。再比如抛掷一颗均匀的6面骰子，1，2，3，4，5，6应等概率出现，所以每次扔出骰子后，出现的期望值是 $\frac{1+2+3+4+5+6}{6}=3.5$ ，基于大数定理，如果多次抛掷骰子，随着抛掷的次数增多，平均值（样本平均值）应该接近3.5。

下面给出投掷单个骰子的过程来展示大数定理。
在这里插入图片描述

代码如下：

clear all;
clf;
clc;
% Specify how many trials you want to run:
num_trials = 1000;

% Now grab all the dice rolls:
trials = randi(6, [1 num_trials]);

% Plot the results:
figure(1);

% Cumulative sum of the trial results divided by the index gives the average:
plot(cumsum(trials)./(1:num_trials), 'r-');

% Let's put a reference line at 3.5 just for fun (make the color a darker green as well):
hold on;
plot([1 num_trials], [3.5 3.5], 'color', [0 0.5 0]);

% Make it look pretty:
title('average dice value against number of rolls');
xlabel('trials');
ylabel('mean value');
legend('average', 'y=3.5');
axis([0 num_trials 1 6]);

定义

设 $X_1,X_2,···$ 是相互独立，服从同一分布的随机变量序列，且具有数学期望 $E(X_k)=\mu(k=1,2,···)$ .作前 $n$ 个变量的算数平均 $\frac{1}{n} \sum_{k=1}^{n}{X_k}$ ，则对于任意 $\varepsilon>0$ ，有
${\lim_{n \to \infty}}P\{|\frac{1}{n}\sum_{k=1}^{n}{X_k-\mu}|<\varepsilon\}=1\tag{1}$

证明

参考前期文章：

切比雪夫不等式证明及应用
 期望和方差的定义与性质

我们在随机变量的方差 $D(X_k)=\sigma^2(k=1,2,···)$ 存在，证明上述结果，由期望、方差和切比雪夫不等式可知
$E(\frac{1}{n}\sum_{k=1}^{n}{X_k})=\frac{1}{n}\sum_{k=1}^{n}{E(X_n)}=\frac{1}{n}(n\mu)=\mu$
又由独立性得
$D(\frac{1}{n}\sum_{k=1}^{n}{X_k})=\frac{1}{n^2}\sum_{k=1}^{n}{E(X_n)}=\frac{1}{n^2}(n\sigma^2)=\frac{\sigma^2}{n}$
由切比雪夫不等式可得
$1\ge P\{|\frac{1}{n}\sum_{k=1}^{n}{X_k-\mu}| < \varepsilon\} \ge 1-\frac{\sigma^2/n}{\varepsilon^2}$
在上式中令 $n\rightarrow\infty$ ，即得
${\lim_{n \to \infty}}P\{|\frac{1}{n}\sum_{k=1}^{n}{X_k-\mu}|<\varepsilon\}=1$

$P\{|\frac{1}{n}\sum_{k=1}^{n}{X_k-\mu}|<\varepsilon\}$ 是一个随机事件。等式（1）表明，当 $n\rightarrow\infty$ 时这个事件的概率趋于1.即对于任意正数 $\varepsilon$ ，当 $n$ 充分大时，不等式 $|\frac{1}{n}\sum_{k=1}^{n}{X_k-\mu}|<\varepsilon$ 成立的概率很大。通俗地说，辛钦大数定理是说，对于独立同分布且具有均值 $\mu$ 的随机变量 $X_1,···,X_n$ ，当 $n$ 很大时它们的算数平均 $\frac{1}{n}\sum_{k=1}^{n}{X_k}$ 很可能接近于 $\mu$ .

可参考前期文章：

依概率收敛

由前期文章辛钦大数定理又可以叙述为
弱大数定理(辛钦大数定理) 设随机变量 $X_1,X_2,···$ 相互独立，服从同一分布且具有数学期望 $E(X_k)=\mu(k=1,2,···)$ .则序列 $\overline{X}=\frac{1}{n} \sum_{k=1}^{n}{X_k}$ 依概率收敛于 $\mu$ ，即 $\overline{X}\stackrel{P}{\longrightarrow}\mu.$

更多内容请关注公众号：Herbie

参考文献

[1] 茆诗松, 程依明, 濮晓龙. 概率论与数理统计教程（第二版）[M]. 高等教育出版社, 2019.
[2] 盛骤, 谢式千, 潘承毅. 概率论与数理统计[M]. 高等教育出版社, 2010.
[3] https://zh.wikipedia.org/wiki/%E5%A4%A7%E6%95%B8%E6%B3%95%E5%89%87